Fugu-MT 論文翻訳(概要): Rethinking LLM-based Preference Evaluation

論文の概要: Rethinking LLM-based Preference Evaluation

arxiv url: http://arxiv.org/abs/2407.01085v1
Date: Mon, 1 Jul 2024 08:37:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 22:19:31.938849
Title: Rethinking LLM-based Preference Evaluation
Title（参考訳）: LLMによる嗜好評価の再考
Authors: Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang, Zhenyu Chen, Jieyu Zhao, Hui Xiong,
Abstract要約: 大規模言語モデル(LLM)に基づく嗜好評価は、モデル応答のペアを比較するために広く採用されている。長大な応答に対する深刻なバイアスが観察されており、この評価手法の信頼性に対する懸念が高まっている。
参考スコア（独自算出の注目度）: 38.62663118795261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, large language model (LLM)-based preference evaluation has been widely adopted to compare pairs of model responses. However, a severe bias towards lengthy responses has been observed, raising concerns about the reliability of this evaluation method. In this work, we designed a series of controlled experiments to study the major impacting factors of the metric of LLM-based preference evaluation, i.e., win rate, and conclude that the win rate is affected by two axes of model response: desirability and information mass, where the former is length-independent and related to trustworthiness, and the latter is length-dependent and can be represented by conditional entropy. We find that length impacts the existing evaluations by influencing information mass. However, a reliable evaluation metric should not only assess content quality but also ensure that the assessment is not confounded by extraneous factors such as response length. Therefore, we propose a simple yet effective adjustment, AdapAlpaca, to the existing practice of win rate measurement. Specifically, by adjusting the lengths of reference answers to match the test model's answers within the same interval, we debias information mass relative to length, ensuring a fair model evaluation.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)に基づく嗜好評価が,モデル応答のペアを比較するために広く採用されている。しかし, 長大な応答に対する偏りが観察されており, この評価手法の信頼性への懸念が高まっている。本研究では, LLMによる選好評価の指標,すなわち, 勝利率に影響を及ぼす要因を検討するための一連の制御実験を設計し, 勝利率は2軸のモデル応答によって影響を受けると結論付けた。情報量に影響を与えることで,既存の評価に長さが影響していることが判明した。しかし、信頼性の高い評価基準は、コンテンツ品質を評価するだけでなく、応答長などの外部要因によって評価が確立されないことを保証すべきである。そこで本研究では,既存の利率測定の実践に対して,簡易かつ効果的な調整法であるAdapAlpacaを提案する。具体的には,テストモデルの回答を同じ間隔で一致させるために基準回答の長さを調整することで,情報量と長さを相対的に偏り,公平なモデル評価を確実にする。

関連論文リスト

Towards a Signal Detection Based Measure for Assessing Information Quality of Explainable Recommender Systems [0.5371337604556311]
本稿では, 妥当性を評価する客観的指標, 説明の質について述べる。提案手法の有効性を評価するため,情報品質の異なる4つの事例を設定した。
論文参考訳（メタデータ） (2025-07-01T20:11:17Z)
Beyond the Surface: Measuring Self-Preference in LLM Judgments [35.66285592603435]
大規模言語モデル(LLM)は、裁判官として機能する際の自己選好バイアスを示す。既存の方法は、審査員モデルが割り当てるスコアと、他のモデルからのレスポンスに割り当てるスコアの差を計算することで、このバイアスを測定するのが一般的である。そこで本研究では,自己選好バイアス(自己選好バイアス)を測定するDBGスコアを提案する。
論文参考訳（メタデータ） (2025-06-03T08:12:47Z)
How Does Response Length Affect Long-Form Factuality [44.91589620660189]
事実性への注意が高まる一方で、事実性に対する応答長の影響は未解明のままである。我々は,人間のアノテーションと高い一致を達成できる,自動的および二段階の長文事実性評価フレームワークを導入する。この枠組みを用いて、より長い応答は、より少ない事実的精度を示し、長さバイアスの存在を確認する。
論文参考訳（メタデータ） (2025-05-29T09:47:56Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文参考訳（メタデータ） (2024-06-16T14:24:30Z)
Challenges and Considerations in the Evaluation of Bayesian Causal Discovery [49.0053848090947]
因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。評価に最も適した指標についてのコンセンサスはない。
論文参考訳（メタデータ） (2024-06-05T12:45:23Z)
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
論文参考訳（メタデータ） (2024-04-06T02:29:02Z)
Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文参考訳（メタデータ） (2024-04-04T11:32:03Z)
ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文参考訳（メタデータ） (2024-02-11T22:40:12Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文参考訳（メタデータ） (2023-10-08T15:14:39Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文参考訳（メタデータ） (2023-09-28T11:18:20Z)
Linked shrinkage to improve estimation of interaction effects in regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。我々は,選択戦略では難しい推論モデルの可能性を評価する。私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文参考訳（メタデータ） (2023-09-25T10:03:39Z)
Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文参考訳（メタデータ） (2023-08-30T07:35:32Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文参考訳（メタデータ） (2020-11-20T15:35:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。