Fugu-MT 論文翻訳(概要): Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability

論文の概要: Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability

arxiv url: http://arxiv.org/abs/2406.18365v2
Date: Tue, 08 Oct 2024 02:50:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 05:32:49.940446
Title: Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability
Title（参考訳）: Themis: フレキシビリティと解釈性を備えたリファレンスフリーなNLG評価言語モデル
Authors: Xinyu Hu, Li Lin, Mingqi Gao, Xunjian Yin, Xiaojun Wan,
Abstract要約: 本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。 Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
参考スコア（独自算出の注目度）: 39.12792986841385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The evaluation of natural language generation (NLG) tasks is a significant and longstanding research area. With the recent emergence of powerful large language models (LLMs), some studies have turned to LLM-based automatic evaluation methods, which demonstrate great potential to become a new evaluation paradigm following traditional string-based and model-based metrics. However, despite the improved performance of existing methods, they still possess some deficiencies, such as dependency on references and limited evaluation flexibility. Therefore, in this paper, we meticulously construct a large-scale NLG evaluation corpus NLG-Eval with annotations from both human and GPT-4 to alleviate the lack of relevant data in this field. Furthermore, we propose Themis, an LLM dedicated to NLG evaluation, which has been trained with our designed multi-perspective consistency verification and rating-oriented preference alignment methods. Themis can conduct flexible and interpretable evaluations without references, and it exhibits superior evaluation performance on various NLG tasks, simultaneously generalizing well to unseen tasks and surpassing other evaluation models, including GPT-4.
Abstract（参考訳）: 自然言語生成タスク(NLG)の評価は、重要かつ長期にわたる研究分野である。近年の強力な大規模言語モデル (LLM) の出現に伴い、一部の研究はLLMに基づく自動評価手法に転換し、従来の文字列ベースおよびモデルベースメトリクスに続く新たな評価パラダイムとなる可能性を示している。しかし、既存のメソッドのパフォーマンスが向上したにもかかわらず、参照への依存や限られた評価の柔軟性など、いくつかの欠陥がある。そこで本稿では,人間とGPT-4のアノテーションを併用した大規模NLG評価コーパス NLG-Eval を慎重に構築し,この分野における関連データの欠如を軽減した。さらに,NLG 評価専用の LLM である Themis を提案する。テミスは参照なしで柔軟かつ解釈可能な評価を行うことができ、様々なNLGタスクにおいて優れた評価性能を示し、同時に見えないタスクに最適化し、GPT-4を含む他の評価モデルを上回る。

関連論文リスト

OpeNLGauge: An Explainable Metric for NLG Evaluation with Open-Weights LLMs [1.8434042562191815]
OpeNLGaugeは、完全にオープンソースで参照不要なNLG評価指標であり、エラースパンに基づいた正確な説明を提供する。我々はOpeNLGaugeが人間の判断と競合する相関を達成し、特定のタスクにおける最先端モデルより優れていることを示す。
論文参考訳（メタデータ） (2025-03-14T20:38:47Z)
A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability [36.83105355430611]
本稿では,異なる評価機能に着目したデュアルパースペクティブなNLGメタ評価フレームワークを提案する。また、新しい人的アノテーションを必要とせず、対応するベンチマークを自動的に構築する手法も導入する。
論文参考訳（メタデータ） (2025-02-17T17:22:49Z)
Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
Large Language Models Are Active Critics in NLG Evaluation [9.932334723464129]
自然言語生成(NLG)システムを評価する新しい手法であるActive-Criticを紹介する。このプロトコルにより、大きな言語モデル(LLM)が'アクティブな批評家'として機能できる。実験により,本手法は現状評価法よりも人的判断との整合性が高いことが示された。
論文参考訳（メタデータ） (2024-10-14T17:04:41Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
LLM-based NLG Evaluation: Current Status and Challenges [41.69249290537395]
自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。 LLMに基づく各種自動評価手法が提案されている。
論文参考訳（メタデータ） (2024-02-02T13:06:35Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。