論文の概要: Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking
- arxiv url: http://arxiv.org/abs/2409.15268v2
- Date: Mon, 30 Sep 2024 18:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:16:59.285638
- Title: Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking
- Title(参考訳): LLM審査員のアライメントベンチマークにおける失敗モード
- Authors: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson,
- Abstract要約: ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
- 参考スコア(独自算出の注目度): 56.275521022148794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The release of ChatGPT in November 2022 sparked an explosion of interest in post-training and an avalanche of new preference optimization (PO) methods. These methods claim superior alignment by virtue of better correspondence with human pairwise preferences, often measured by LLM-judges. In this work, we attempt to answer the following question -- do LLM-judge preferences translate to progress on other, more concrete metrics for alignment, and if not, why not? We define a concrete metric for alignment, and introduce SOS-Bench (Substance Outweighs Style Benchmark), which is to the best of our knowledge the largest standardized, reproducible LLM meta-benchmark to date. We find that (1) LLM-judge preferences do not correlate with concrete measures of safety, world knowledge, and instruction following; (2) LLM-judges have powerful implicit biases, prioritizing style over factuality and safety; and (3) the supervised fine-tuning (SFT) stage of post-training, and not the PO stage, has the greatest impact on alignment, with data scaling and prompt diversity as the driving factors. Our codebase and complete results can be found at https://github.com/penfever/sos-bench.
- Abstract(参考訳): 2022年11月のChatGPTのリリースは、ポストトレーニングへの関心の爆発と、新しい選好最適化(PO)メソッドの雪崩を引き起こした。
これらの手法は、LLM-judgesによってしばしば測定される、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進歩に変換されるのか、そうでなければ、なぜそうでないのか?
我々は、アライメントのための具体的なメトリクスを定義し、SOS-Bench (Substance Outweighs Style Benchmark)を導入します。
1) LLM-judge は安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge は実効性,安全性よりもスタイルを優先する強力な暗黙の偏見を持ち,(3) PO 段階ではなく,教師付き微調整(SFT) 段階は,データスケーリングと多様性を駆動要因として,アライメントに最も大きな影響を与えている。
私たちのコードベースと完全な結果は、https://github.com/penfever/sos-bench.orgで確認できます。
関連論文リスト
- Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only [37.36302216137465]
我々は,自己整合性,トークン確率,LCM-as-a-judgeに基づく手法を用いて,誤った過激な嗜好を導き出す。
実験により、LLMは様々な間違った色合いを区別する予備的な能力を持ち、ランダムな推測よりも最大20.9%高い性能を達成していることが示された。
論文 参考訳(メタデータ) (2024-10-14T20:01:52Z) - Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders [31.116716790604116]
大規模言語モデル(LLM)はレコメンデーションコミュニティで注目を集めている。
一部の研究では、LLMが完全なソフトマックスでクロスエントロピー(CE)の損失によって微調整された場合、シーケンシャルなレコメンデーションで最先端のパフォーマンスを達成することが観察されている。
本研究は,クロスエントロピー損失の優越性を理論的に正当化するものである。
論文 参考訳(メタデータ) (2024-08-26T12:52:02Z) - Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。
プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。
本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-08-02T17:55:50Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。