Fugu-MT 論文翻訳(概要): Towards a Unified Multi-Dimensional Evaluator for Text Generation

論文の概要: Towards a Unified Multi-Dimensional Evaluator for Text Generation

arxiv url: http://arxiv.org/abs/2210.07197v1
Date: Thu, 13 Oct 2022 17:17:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 15:58:56.994328
Title: Towards a Unified Multi-Dimensional Evaluator for Text Generation
Title（参考訳）: テキスト生成のための統合多次元エミュレータの開発
Authors: Ming Zhong, Yang Liu, Da Yin, Yuning Mao, Yizhu Jiao, Pengfei Liu, Chenguang Zhu, Heng Ji and Jiawei Han
Abstract要約: 自然言語生成のための統一多次元評価器UniEvalを提案する。我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。 3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
参考スコア（独自算出の注目度）: 101.47008809623202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-dimensional evaluation is the dominant paradigm for human evaluation in Natural Language Generation (NLG), i.e., evaluating the generated text from multiple explainable dimensions, such as coherence and fluency. However, automatic evaluation in NLG is still dominated by similarity-based metrics, and we lack a reliable framework for a more comprehensive evaluation of advanced models. In this paper, we propose a unified multi-dimensional evaluator UniEval for NLG. We re-frame NLG evaluation as a Boolean Question Answering (QA) task, and by guiding the model with different questions, we can use one evaluator to evaluate from multiple dimensions. Furthermore, thanks to the unified Boolean QA format, we are able to introduce an intermediate learning phase that enables UniEval to incorporate external knowledge from multiple related tasks and gain further improvement. Experiments on three typical NLG tasks show that UniEval correlates substantially better with human judgments than existing metrics. Specifically, compared to the top-performing unified evaluators, UniEval achieves a 23% higher correlation on text summarization, and over 43% on dialogue response generation. Also, UniEval demonstrates a strong zero-shot learning ability for unseen evaluation dimensions and tasks. Source code, data and all pre-trained evaluators are available on our GitHub repository (https://github.com/maszhongming/UniEval).
Abstract（参考訳）: 多次元評価は、自然言語生成(NLG)における人間の評価において支配的なパラダイムである。しかし NLG の自動評価はいまだに類似度に基づく指標に支配されており,高度なモデルのより包括的な評価を行うための信頼性の高い枠組みが欠如している。本論文では,NLGのための統一多次元評価器UniEvalを提案する。我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。さらに、統合されたブールQAフォーマットにより、UniEvalが複数の関連するタスクから外部知識を取り入れ、さらなる改善を実現するための中間学習フェーズを導入することができる。 3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。具体的には、トップパフォーマンスの統一評価者と比較して、unievalはテキスト要約で23%、対話応答生成で43%以上高い相関率を達成している。また、UniEvalは、見えない評価次元やタスクに対して強力なゼロショット学習能力を示す。ソースコード、データ、事前トレーニング済みのエミュレータはすべて、githubリポジトリで利用できます(https://github.com/maszhongming/unieval)。

関連論文リスト

SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。 We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文参考訳（メタデータ） (2024-09-30T02:56:35Z)
Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。 textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文参考訳（メタデータ） (2024-07-19T17:14:16Z)
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文参考訳（メタデータ） (2024-05-20T16:47:22Z)
X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects [32.50977115108103]
X-Evalは、エンドユーザーがカスタマイズした視覚的側面と見えない側面の両方でテキストを評価するための2段階のインストラクションチューニングフレームワークである。 X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
論文参考訳（メタデータ） (2023-11-15T09:01:55Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)
Multi-Dimensional Evaluation of Text Summarization with In-Context Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文参考訳（メタデータ） (2023-06-01T23:27:49Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。 We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文参考訳（メタデータ） (2022-04-28T08:35:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。