Fugu-MT 論文翻訳(概要): Explaining Length Bias in LLM-Based Preference Evaluations

論文の概要: Explaining Length Bias in LLM-Based Preference Evaluations

arxiv url: http://arxiv.org/abs/2407.01085v3
Date: Sun, 29 Dec 2024 08:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.268753
Title: Explaining Length Bias in LLM-Based Preference Evaluations
Title（参考訳）: LLMを用いた基準評価における長さバイアスの解説
Authors: Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Tianfu Wang, Zhengyu Chen, Nicholas Jing Yuan, Jianxun Lian, Kaize Ding, Hui Xiong,
Abstract要約: 本研究では,選好評価指標,特に勝率を,好ましさと情報量という2つの重要な要素に分解する。応答長が情報量に影響を与えることにより評価に影響を及ぼすことを示す。本稿では,利得率測定のための簡易かつ効果的な調整法であるAdapAlpacaを提案する。
参考スコア（独自算出の注目度）: 51.07275977870145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of large language models (LLMs) as judges, particularly in preference comparisons, has become widespread, but this reveals a notable bias towards longer responses, undermining the reliability of such evaluations. To better understand such bias, we propose to decompose the preference evaluation metric, specifically the win rate, into two key components: desirability and information mass, where the former is length-independent and related to trustworthiness such as correctness, toxicity, and consistency, and the latter is length-dependent and represents the amount of information in the response. We empirically demonstrated the decomposition through controlled experiments and found that response length impacts evaluations by influencing information mass. To derive a reliable evaluation metric that assesses content quality without being confounded by response length, we propose AdapAlpaca, a simple yet effective adjustment to win rate measurement. Specifically, AdapAlpaca ensures a fair comparison of response quality by aligning the lengths of reference and test model responses under equivalent length intervals.
Abstract（参考訳）: 大規模言語モデル(LLM)は,特に選好比較において広く用いられるようになったが,これは長い応答に対する顕著な偏見を示し,そのような評価の信頼性を損なう。このようなバイアスをよりよく理解するために、選好評価指標、特に勝利率を2つの重要な構成要素に分解することを提案する。実験の結果, 応答長が情報量に影響を及ぼすことで評価に影響を及ぼすことがわかった。応答長を縮めることなくコンテンツ品質を評価する信頼性の高い評価基準を導出するため,本研究では,利率測定のための簡易かつ効果的な調整であるAdapAlpacaを提案する。具体的には、AdapAlpacaは、参照およびテストモデル応答の長さを等価な長さ間隔で整列することで、応答品質の公平な比較を保証する。

関連論文リスト

Towards a Signal Detection Based Measure for Assessing Information Quality of Explainable Recommender Systems [0.5371337604556311]
本稿では, 妥当性を評価する客観的指標, 説明の質について述べる。提案手法の有効性を評価するため,情報品質の異なる4つの事例を設定した。
論文参考訳（メタデータ） (2025-07-01T20:11:17Z)
Beyond the Surface: Measuring Self-Preference in LLM Judgments [35.66285592603435]
大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
論文参考訳（メタデータ） (2025-06-03T08:12:47Z)
How Does Response Length Affect Long-Form Factuality [44.91589620660189]
事実性への注意が高まる一方で、事実性に対する応答長の影響は未解明のままである。我々は,人間のアノテーションと高い一致を達成できる,自動的および二段階の長文事実性評価フレームワークを導入する。この枠組みを用いて、より長い応答は、より少ない事実的精度を示し、長さバイアスの存在を確認する。
論文参考訳（メタデータ） (2025-05-29T09:47:56Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文参考訳（メタデータ） (2024-06-16T14:24:30Z)
Challenges and Considerations in the Evaluation of Bayesian Causal Discovery [49.0053848090947]
因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。評価に最も適した指標についてのコンセンサスはない。
論文参考訳（メタデータ） (2024-06-05T12:45:23Z)
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
論文参考訳（メタデータ） (2024-04-06T02:29:02Z)
Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文参考訳（メタデータ） (2024-04-04T11:32:03Z)
ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文参考訳（メタデータ） (2024-02-11T22:40:12Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文参考訳（メタデータ） (2023-10-08T15:14:39Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文参考訳（メタデータ） (2023-09-28T11:18:20Z)
Linked shrinkage to improve estimation of interaction effects in regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。我々は,選択戦略では難しい推論モデルの可能性を評価する。私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文参考訳（メタデータ） (2023-09-25T10:03:39Z)
Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文参考訳（メタデータ） (2023-08-30T07:35:32Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文参考訳（メタデータ） (2020-11-20T15:35:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。