論文の概要: On Evaluating LLM Alignment by Evaluating LLMs as Judges
- arxiv url: http://arxiv.org/abs/2511.20604v1
- Date: Tue, 25 Nov 2025 18:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.61345
- Title: On Evaluating LLM Alignment by Evaluating LLMs as Judges
- Title(参考訳): 審査員としてのLLMアライメントの評価について
- Authors: Yixin Liu, Pengfei Liu, Arman Cohan,
- Abstract要約: 大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
- 参考スコア(独自算出の注目度): 68.15541137648721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment with human preferences is an important evaluation aspect of LLMs, requiring them to be helpful, honest, safe, and to precisely follow human instructions. Evaluating large language models' (LLMs) alignment typically involves directly assessing their open-ended responses, requiring human annotators or strong LLM judges. Conversely, LLMs themselves have also been extensively evaluated as judges for assessing alignment. In this work, we examine the relationship between LLMs' generation and evaluation capabilities in aligning with human preferences. To this end, we first conduct a comprehensive analysis of the generation-evaluation consistency (GE-consistency) among various LLMs, revealing a strong correlation between their generation and evaluation capabilities when evaluated by a strong LLM preference oracle. Utilizing this finding, we propose a benchmarking paradigm that measures LLM alignment with human preferences without directly evaluating their generated outputs, instead assessing LLMs in their role as evaluators. Our evaluation shows that our proposed benchmark, AlignEval, matches or surpasses widely used automatic LLM evaluation benchmarks, such as AlpacaEval and Arena-Hard, in capturing human preferences when ranking LLMs. Our study offers valuable insights into the connection between LLMs' generation and evaluation capabilities, and introduces a benchmark that assesses alignment without directly evaluating model outputs.
- Abstract(参考訳): 人間の好みの調整はLLMの重要な評価の側面であり、人間の指示に従うのに役立ち、正直で、安全である必要がある。
大規模言語モデル(LLM)のアライメントを評価するには、一般に、オープンな応答を直接評価し、人間のアノテータや強力なLLM審査員を必要とする。
逆に、LCM自体もアライメントを評価するための審査員として広く評価されている。
本研究では,LLMの生成とヒトの嗜好に合わせた評価能力との関係について検討する。
そこで本研究では,まず,様々なLCM間でのジェネレーション評価一貫性(GE整合性)の包括的解析を行い,強力なLCM選好オラクルによる評価において,その生成能力と評価能力の間に強い相関関係があることを明らかにする。
そこで本研究では, LLMを評価対象として, 出力を直接評価することなく, LLMと人間の嗜好との整合性を評価するベンチマークパラダイムを提案する。
評価の結果,提案するベンチマークAlignEvalは,AlpacaEvalやArena-Hardなど,広く使用されている自動LLM評価ベンチマークと一致しているか,あるいは上回っていることがわかった。
本研究は,LLMの生成と評価能力の関連性に関する貴重な知見を提供し,モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
関連論文リスト
- Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。
自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-31T17:46:51Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。