論文の概要: Rethinking Human Preference Evaluation of LLM Rationales
- arxiv url: http://arxiv.org/abs/2509.11026v1
- Date: Sun, 14 Sep 2025 01:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.879127
- Title: Rethinking Human Preference Evaluation of LLM Rationales
- Title(参考訳): LLM合理化の人間選好評価の再考
- Authors: Ziang Li, Manasi Ganti, Zixian Ma, Helena Vasconcelos, Qijia He, Ranjay Krishna,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な推論タスクのパフォーマンス向上と人間の解釈可能性の向上に役立つ自然言語の有理をしばしば生成する。
どんな属性が良い合理性を定義していますか?
次に、2つの標準的な人間の嗜好評価データセットを分析し、どの属性が人間の選好結果を説明するのが最適かを特定する。
本研究は, 微粒化特性評価により, 理性評価の精度が向上し, より解釈可能で信頼性の高い評価実践に向けた今後の研究を導くことを示唆している。
- 参考スコア(独自算出の注目度): 35.5756891102128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often generate natural language rationales -- free-form explanations that help improve performance on complex reasoning tasks and enhance interpretability for human users. However, evaluating these rationales remains challenging. While recent work has relied on binary preference judgments from humans or LLM judges, such evaluations are often opaque and coarse-grained, offering limited insight into what makes one rationale better than another. In this work, we rethink preference evaluation for LLM-generated rationales by asking: (1) What attributes define good rationales? (2) Can human preferences be explained by these attributes? (3) Can attribute-based evaluation overcome the limitations of binary comparisons? We identify a set of key rationale attributes from prior literature and assess them using automatic metrics, LLM judgments, and human annotations. We then analyze two standard human preference datasets MT Bench and Chatbot Arena using SHAP to identify which attributes best explain human preference outcomes. Finally, we re-evaluate model-generated rationales using attribute-specific ELO scores, revealing more nuanced model comparisons and insights. Our findings suggest that fine-grained attribute evaluations can better characterize rationale quality and guide future research toward more interpretable and reliable evaluation practices.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば自然言語の合理性を生成する。
しかし、これらの根拠を評価することは依然として困難である。
近年の研究は、人間やLLMの判断による二項選好の判断に依存しているが、そのような評価はしばしば不透明で粗い粒度であり、ある理性が他の理性よりも優れているかについての限られた洞察を与えている。
本研究では,LLM生成有理数に対する選好評価について,(1) 有理数を定義する属性は何か,という質問によって再考する。
2) 人間の嗜好はこれらの属性によって説明できるのか?
(3) 属性に基づく評価は二項比較の限界を克服できるのか?
我々は、先行文献から重要な論理的属性の集合を特定し、それらを自動メトリクス、LLM判定、人文アノテーションを用いて評価する。
次に、SHAPを用いて、標準的な人選好データセットMT BenchとChatbot Arenaを解析し、人選好結果の最もよく説明できる属性を特定する。
最後に、属性固有ELOスコアを用いてモデル生成論理を再評価し、より微妙なモデル比較と洞察を明らかにする。
本研究は, 微粒化特性評価により, 理性評価の精度が向上し, より解釈可能で信頼性の高い評価実践に向けた今後の研究を導くことを示唆している。
関連論文リスト
- Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.38771834692938]
より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文 参考訳(メタデータ) (2024-06-28T14:33:05Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。