論文の概要: X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented
Instruction Tuning with Auxiliary Evaluation Aspects
- arxiv url: http://arxiv.org/abs/2311.08788v1
- Date: Wed, 15 Nov 2023 09:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:49:39.637873
- Title: X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented
Instruction Tuning with Auxiliary Evaluation Aspects
- Title(参考訳): x-eval:補助評価を考慮した拡張命令チューニングによる一般化マルチスペクトルテキスト評価
- Authors: Minqian Liu, Ying Shen, Zhiyang Xu, Yixin Cao, Eunah Cho, Vaibhav
Kumar, Reza Ghanadan, Lifu Huang
- Abstract要約: X-Evalは、エンドユーザーがカスタマイズした視覚的側面と見えない側面の両方でテキストを評価するための2段階のインストラクションチューニングフレームワークである。
X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
- 参考スコア(独自算出の注目度): 33.909973696587606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Generation (NLG) typically involves evaluating the generated
text in various aspects (e.g., consistency and naturalness) to obtain a
comprehensive assessment. However, multi-aspect evaluation remains challenging
as it may require the evaluator to generalize to any given evaluation aspect
even if it's absent during training. In this paper, we introduce X-Eval, a
two-stage instruction tuning framework to evaluate the text in both seen and
unseen aspects customized by end users. X-Eval consists of two learning stages:
the vanilla instruction tuning stage that improves the model's ability to
follow evaluation instructions, and an enhanced instruction tuning stage that
exploits the connections between fine-grained evaluation aspects to better
assess text quality. To support the training of X-Eval, we collect
AspectInstruct, the first instruction tuning dataset tailored for multi-aspect
NLG evaluation spanning 27 diverse evaluation aspects with 65 tasks. To enhance
task diversity, we devise an augmentation strategy that converts human rating
annotations into diverse forms of NLG evaluation tasks, including scoring,
comparison, ranking, and Boolean question answering. Extensive experiments
across three essential categories of NLG tasks: dialogue generation,
summarization, and data-to-text coupled with 21 aspects in meta-evaluation,
demonstrate that our X-Eval enables even a lightweight language model to
achieve a comparable if not higher correlation with human judgments compared to
the state-of-the-art NLG evaluators, such as GPT-4.
- Abstract(参考訳): 自然言語生成(NLG)は通常、様々な側面(例えば一貫性と自然性)で生成されたテキストを評価し、包括的な評価を得る。
しかし、訓練中に欠席している場合でも、評価者が任意の評価面に一般化する必要があるため、マルチアスペクト評価は依然として困難である。
本稿では,エンドユーザーがカスタマイズした2段階のインストラクション・チューニング・フレームワークであるX-Evalを紹介する。
X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
X-Evalのトレーニングを支援するために,65のタスクで27の異なる評価側面にまたがるマルチアスペクトNLG評価に適した,最初のインストラクションチューニングデータセットであるAspectInstructを収集した。
タスクの多様性を高めるため,評価アノテーションをスコアリング,比較,ランキング,ブール質問応答など,多種多様なNLG評価タスクに変換する拡張戦略を考案した。
NLGタスクの3つの重要なカテゴリ(対話生成、要約、データ・トゥ・テキスト)にメタ評価の21の側面が組み合わさった実験により、我々のX-Evalは、GPT-4のような最先端のNLG評価器と比較して、人間の判断に匹敵する相関性のない軽量言語モデルでも達成できることを示した。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - CoAScore: Chain-of-Aspects Prompting for NLG Evaluation [15.040372431669093]
自然言語生成(NLG)の評価は、シングルアスペクトからマルチアスペクトパラダイムに移行した。
我々は,大規模言語モデル(LLM)を利用したCoAScoreと呼ばれるNLG評価指標を提案する。
実験結果から,個人的側面評価と比較して,CoAScoreは人的判断と高い相関性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-16T06:57:20Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and
Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。
その影響と倫理的考察の具体化について検討する。
論文 参考訳(メタデータ) (2022-05-13T18:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。