論文の概要: HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition
- arxiv url: http://arxiv.org/abs/2402.15754v1
- Date: Sat, 24 Feb 2024 08:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:14:28.045130
- Title: HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition
- Title(参考訳): HD-Eval:階層的基準分解による大規模言語モデル評価器の調整
- Authors: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang,
Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
- Abstract要約: HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
- 参考スコア(独自算出の注目度): 92.17397504834825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have emerged as a promising alternative to
expensive human evaluations. However, the alignment and coverage of LLM-based
evaluations are often limited by the scope and potential bias of the evaluation
prompts and criteria. To address this challenge, we propose HD-Eval, a novel
framework that iteratively aligns LLM-based evaluators with human preference
via Hierarchical Criteria Decomposition. HD-Eval inherits the essence from the
evaluation mindset of human experts and enhances the alignment of LLM-based
evaluators by decomposing a given evaluation task into finer-grained criteria,
aggregating them according to estimated human preferences, pruning
insignificant criteria with attribution, and further decomposing significant
criteria. By integrating these steps within an iterative alignment training
process, we obtain a hierarchical decomposition of criteria that
comprehensively captures aspects of natural language at multiple levels of
granularity. Implemented as a white box, the human preference-guided aggregator
is efficient to train and more explainable than relying solely on prompting,
and its independence from model parameters makes it applicable to closed-source
LLMs. Extensive experiments on three evaluation domains demonstrate the
superiority of HD-Eval in further aligning state-of-the-art evaluators and
providing deeper insights into the explanation of evaluation results and the
task itself.
- Abstract(参考訳): 大きな言語モデル(LLM)は、高価な人間の評価に代わる有望な代替品として登場した。
しかしながら、llmに基づく評価の調整とカバレッジは、しばしば評価プロンプトと基準の範囲と潜在的なバイアスによって制限される。
この課題に対処するため,我々は,llmに基づく評価器を階層的基準分解による人間の嗜好に合わせて反復的に調整する新しいフレームワーク hd-eval を提案する。
HD-Evalは、人間の専門家評価の考え方から本質を継承し、与えられた評価タスクをよりきめ細かい基準に分解し、推定された人間の嗜好に応じてそれらを集約し、帰属を伴う重要基準を抽出し、さらに重要な基準を分解することで、LLMに基づく評価者のアライメントを強化する。
これらのステップを反復的なアライメントトレーニングプロセスに統合することにより、自然言語の側面を多段階の粒度で包括的に捉えた基準を階層的に分解する。
ホワイトボックスとして実装されたヒトの嗜好誘導アグリゲータは、プロンプトのみに依存するよりも、訓練が効率的で説明しやすいものであり、モデルパラメータからの独立性により、クローズドソースのLCMに適用できる。
3つの評価領域に関する大規模な実験は、HD-Evalの優位性を示し、評価結果とタスク自体の説明について深い洞察を提供する。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Large Language Models Are Active Critics in NLG Evaluation [9.932334723464129]
Active-Criticは、大きな言語モデル(LLM)を「アクティブな批評家」に変換する新しい評価器である
実験の結果,Active-Criticは文脈認識評価基準を生成できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T17:04:41Z) - Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。