論文の概要: Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators
- arxiv url: http://arxiv.org/abs/2404.04475v1
- Date: Sat, 6 Apr 2024 02:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 21:08:32.781078
- Title: Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators
- Title(参考訳): 長さ制御されたAlpacaEval: 自動評価器のバイアス軽減のための簡単な方法
- Authors: Yann Dubois, Balázs Galambosi, Percy Liang, Tatsunori B. Hashimoto,
- Abstract要約: 自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。
実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。
モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
- 参考スコア(独自算出の注目度): 59.48172585509628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based auto-annotators have become a key component of the LLM development process due to their cost-effectiveness and scalability compared to human-based evaluation. However, these auto-annotators can introduce complex biases that are hard to remove. Even simple, known confounders such as preference for longer outputs remain in existing automated evaluation metrics. We propose a simple regression analysis approach for controlling biases in auto-evaluations. As a real case study, we focus on reducing the length bias of AlpacaEval, a fast and affordable benchmark for chat LLMs that uses LLMs to estimate response quality. Despite being highly correlated with human preferences, AlpacaEval is known to favor models that generate longer outputs. We introduce a length-controlled AlpacaEval that aims to answer the counterfactual question: "What would the preference be if the model's and baseline's output had the same length?". To achieve this, we first fit a generalized linear model to predict the biased output of interest (auto-annotator preferences) based on the mediators we want to control for (length difference) and other relevant features. We then obtain length-controlled preferences by predicting preferences while conditioning the GLM with a zero difference in lengths. Length-controlling not only improves the robustness of the metric to manipulations in model verbosity, we also find that it increases the Spearman correlation with LMSYS' Chatbot Arena from 0.94 to 0.98. We release the code and leaderboard at https://tatsu-lab.github.io/alpaca_eval/ .
- Abstract(参考訳): LLMベースのオートアノテータは、人間による評価に比べてコスト効率とスケーラビリティのため、LLM開発プロセスの重要なコンポーネントとなっている。
しかし、これらの自動アノテーションは、取り除くのが難しい複雑なバイアスを導入することができる。
既存の自動評価指標には、より長いアウトプットを優先するといった、シンプルで既知の共同創設者が残っている。
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。
実ケーススタディでは、LLMを用いて応答品質を推定するチャットLLMの高速で安価なベンチマークであるAlpacaEvalの長さバイアスの低減に重点を置いている。
人間の好みと強く相関しているにもかかわらず、AlpacaEvalはより長い出力を生み出すモデルを好むことが知られている。
モデルとベースラインの出力が同じ長さなのか?
これを実現するために、まず一般化された線形モデルを用いて、制御したいメディエータ(長さ差)やその他の関連する特徴に基づいて、興味のバイアス付き出力(オートアノテータ選好)を予測する。
次に,GLMを長さ差ゼロで条件付けしながら,好みを予測し,長さ制御された嗜好を得る。
また,LMSYSのChatbot Arenaとのスピアマン相関を0.94から0.98に向上させた。
コードとリーダーボードはhttps://tatsu-lab.github.io/alpaca_eval/で公開しています。
関連論文リスト
- CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。
しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。
本稿では,各イテレーション間の報酬整合性を利用して自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model (CREAM)を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:51:01Z) - Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。
本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-25T22:30:42Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。