論文の概要: Towards a Unified Multi-Dimensional Evaluator for Text Generation
- arxiv url: http://arxiv.org/abs/2210.07197v1
- Date: Thu, 13 Oct 2022 17:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:58:56.994328
- Title: Towards a Unified Multi-Dimensional Evaluator for Text Generation
- Title(参考訳): テキスト生成のための統合多次元エミュレータの開発
- Authors: Ming Zhong, Yang Liu, Da Yin, Yuning Mao, Yizhu Jiao, Pengfei Liu,
Chenguang Zhu, Heng Ji and Jiawei Han
- Abstract要約: 自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
- 参考スコア(独自算出の注目度): 101.47008809623202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-dimensional evaluation is the dominant paradigm for human evaluation in
Natural Language Generation (NLG), i.e., evaluating the generated text from
multiple explainable dimensions, such as coherence and fluency. However,
automatic evaluation in NLG is still dominated by similarity-based metrics, and
we lack a reliable framework for a more comprehensive evaluation of advanced
models. In this paper, we propose a unified multi-dimensional evaluator UniEval
for NLG. We re-frame NLG evaluation as a Boolean Question Answering (QA) task,
and by guiding the model with different questions, we can use one evaluator to
evaluate from multiple dimensions. Furthermore, thanks to the unified Boolean
QA format, we are able to introduce an intermediate learning phase that enables
UniEval to incorporate external knowledge from multiple related tasks and gain
further improvement. Experiments on three typical NLG tasks show that UniEval
correlates substantially better with human judgments than existing metrics.
Specifically, compared to the top-performing unified evaluators, UniEval
achieves a 23% higher correlation on text summarization, and over 43% on
dialogue response generation. Also, UniEval demonstrates a strong zero-shot
learning ability for unseen evaluation dimensions and tasks. Source code, data
and all pre-trained evaluators are available on our GitHub repository
(https://github.com/maszhongming/UniEval).
- Abstract(参考訳): 多次元評価は、自然言語生成(NLG)における人間の評価において支配的なパラダイムである。
しかし NLG の自動評価はいまだに類似度に基づく指標に支配されており,高度なモデルのより包括的な評価を行うための信頼性の高い枠組みが欠如している。
本論文では,NLGのための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
さらに、統合されたブールQAフォーマットにより、UniEvalが複数の関連するタスクから外部知識を取り入れ、さらなる改善を実現するための中間学習フェーズを導入することができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
具体的には、トップパフォーマンスの統一評価者と比較して、unievalはテキスト要約で23%、対話応答生成で43%以上高い相関率を達成している。
また、UniEvalは、見えない評価次元やタスクに対して強力なゼロショット学習能力を示す。
ソースコード、データ、事前トレーニング済みのエミュレータはすべて、githubリポジトリで利用できます(https://github.com/maszhongming/unieval)。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。
We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文 参考訳(メタデータ) (2024-09-30T02:56:35Z) - Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。
評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文 参考訳(メタデータ) (2024-05-20T16:47:22Z) - X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects [32.50977115108103]
X-Evalは、エンドユーザーがカスタマイズした視覚的側面と見えない側面の両方でテキストを評価するための2段階のインストラクションチューニングフレームワークである。
X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
論文 参考訳(メタデータ) (2023-11-15T09:01:55Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。