Fugu-MT 論文翻訳(概要): Open-Domain Text Evaluation via Meta Distribution Modeling

論文の概要: Open-Domain Text Evaluation via Meta Distribution Modeling

arxiv url: http://arxiv.org/abs/2306.11879v1
Date: Tue, 20 Jun 2023 20:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 15:44:38.162694
Title: Open-Domain Text Evaluation via Meta Distribution Modeling
Title（参考訳）: メタ分散モデリングによるオープンドメインテキスト評価
Authors: Sidi Lu and Asli Celikyilmaz and Tianlu Wang and Nanyun Peng
Abstract要約: オープンドメイン生成モデルを評価するための新しいアプローチ - Meta-Distribution Methods (MDM) を提案する。筆者らは,1)メタディストリビューション法を利用したオープンドメインテキスト生成評価のためのMDMについて検討する。1)メタディストリビューション法を用いて,識別器ベースのメトリクスをトレーニングするためのドメイン内負のサンプルを生成するemphDiscriminative MDM,2)2つの言語モデル間の分散の相違を直接利用して評価を行うemphDiscriminative MDMについて検討する。
参考スコア（独自算出の注目度）: 59.38686738625588
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in open-domain text generation models powered by large pre-trained language models (LLMs) have achieved remarkable performance. However, evaluating and controlling these models for desired attributes remains a challenge, as traditional reference-based metrics such as BLEU, ROUGE, and METEOR are insufficient for open-ended generation tasks. Similarly, while trainable discriminator-based evaluation metrics show promise, obtaining high-quality training data is a non-trivial task. In this paper, we introduce a novel approach to evaluate open-domain generation - the Meta-Distribution Methods (MDM). Drawing on the correlation between the rising parameter counts and the improving performance of LLMs, MDM creates a mapping from the contrast of two probabilistic distributions -- one known to be superior to the other -- to quality measures, which can be viewed as a distribution of distributions i.e. Meta-Distribution. We investigate MDM for open-domain text generation evaluation under two paradigms: 1) \emph{Generative} MDM, which leverages the Meta-Distribution Methods to generate in-domain negative samples for training discriminator-based metrics; 2) \emph{Discriminative} MDM, which directly uses distribution discrepancies between two language models for evaluation. Our experiments on multi-turn dialogue and factuality in abstractive summarization demonstrate that MDMs correlate better with human judgment than existing automatic evaluation metrics on both tasks, highlighting the strong performance and generalizability of such methods.
Abstract（参考訳）: 大規模事前学習言語モデル(LLM)を利用したオープンドメインテキスト生成モデルの最近の進歩は、目覚ましい性能を実現している。しかし、BLEU、ROUGE、METEORといった従来の基準ベースのメトリクスは、オープンな生成タスクには不十分であるため、これらのモデルの評価と制御は依然として課題である。同様に、訓練可能な判別子ベースの評価基準は期待できるが、高品質なトレーニングデータを得るのは簡単な作業ではない。本稿では,オープンドメイン生成(Meta-Distribution Methods, MDM)を評価する新しい手法を提案する。 MDMは、上昇するパラメータ数とLLMの性能改善の相関関係に基づいて、2つの確率分布(それぞれが他方よりも優れていることが知られている)の対比から、メタ分布の分布と見なせる品質指標へのマッピングを生成する。オープンドメインテキスト生成評価のためのMDMを2つのパラダイムで検討する。 1) メタ分散法を活用し、識別器に基づくメトリクスを訓練するためのドメイン内負のサンプルを生成する \emph{generative} mdm。 2) MDMは2つの言語モデル間の分布の相違を直接用いて評価を行う。抽象的な要約における多ターン対話と事実性に関する実験により、MDMは既存のタスクの自動評価指標よりも人間の判断と相関し、これらの手法の強い性能と一般化性を強調した。

関連論文リスト

SMCLM: Semantically Meaningful Causal Language Modeling for Autoregressive Paraphrase Generation [0.0]
本稿では,意味意味的因果言語モデリング(SMCLM)を紹介する。 SMCLMは、意味論的に等価なテキストを生成するための自己回帰モデルの訓練方法である。提案手法は教師なし手法と競合し,教師なし手法で最先端の手法を実現する。
論文参考訳（メタデータ） (2025-07-04T09:23:13Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
LLMs Are Not Scorers: Rethinking MT Evaluation with Generation-Based Methods [0.0]
本稿では,デコーダのみの言語モデルを利用して高品質な参照を生成する世代ベース評価パラダイムを提案する。実験の結果,本手法はMTMEのLLM内直接スコアリング基準値と外部非LLM基準値の両方より優れていた。
論文参考訳（メタデータ） (2025-05-22T02:14:38Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models [0.0]
本稿では,AI生成テキストと人間認証テキストを区別するために,事前学習言語モデルからのテキスト埋め込みを用いた新しいフレームワークを提案する。提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
論文参考訳（メタデータ） (2024-11-01T07:18:27Z)
A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文参考訳（メタデータ） (2024-06-21T15:11:33Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文参考訳（メタデータ） (2023-10-25T17:59:12Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文参考訳（メタデータ） (2022-12-30T07:37:40Z)
Mutual Information Divergence: A Unified Metric for Multimodal Generative Models [19.520177195241704]
我々は,MID(Multual Information Divergence)を用いて作成したCLIP特徴を統一計量として用いた負のガウス交叉情報を提案する。我々は、テキスト・ツー・イメージ生成や画像キャプションタスクにおいて、慎重に生成された、あるいは人手による判断を用いて、競合する指標と比較した。提案したMIDは、ベンチマーク、サンプルパーシモニー、および悪用されたCLIPモデルに対するロバスト性によって、競合する手法よりも大幅に優れている。
論文参考訳（メタデータ） (2022-05-25T09:34:37Z)
A comprehensive comparative evaluation and analysis of Distributional Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文参考訳（メタデータ） (2021-05-20T15:18:06Z)
MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text Generation [41.360219974284114]
オープンエンドテキスト生成の指標であるMAUVEを提案する。本稿では、Webテキストドメインとストーリードメインの2つのオープンエンドな生成タスクに対して実験を行う。
論文参考訳（メタデータ） (2021-02-02T11:59:28Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。