Fugu-MT 論文翻訳(概要): Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking

論文の概要: Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking

arxiv url: http://arxiv.org/abs/2409.15268v1
Date: Mon, 23 Sep 2024 17:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 13:43:14.912937
Title: Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
Title（参考訳）: 基板上のスタイル:アライメントベンチマークにおけるLCM審査員の失敗モード
Authors: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson,
Abstract要約: ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。 LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか? 1) LLM判断は, 安全性, 世界知識, 指導の具体的な尺度と相関せず, 2) LLM判断者は, 事実性や安全性を優先して, 強い暗黙の偏見を持ち, 3) PO段階ではなく, 監督された訓練後の微調整段階がアライメントに最も影響を与える。
参考スコア（独自算出の注目度）: 56.275521022148794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The release of ChatGPT in November 2022 sparked an explosion of interest in post-training and an avalanche of new preference optimization (PO) methods. These methods claim superior alignment by virtue of better correspondence with human pairwise preferences, often measured by LLM judges. In this work, we attempt to answer the following question -- do LLM-judge preferences translate to progress on other, more concrete metrics for alignment, and if not, why not? We define a concrete metric for alignment, and introduce SOS-Bench, the largest standardized, reproducible LLM meta-benchmark to date. We find that (1) LLM-judgments do not correlate with concrete measures of safety, world knowledge, and instruction following; (2) LLM judges have powerful implicit biases, prioritizing style over factuality and safety; and (3) the supervised fine-tuning (SFT) stage of post-training, and not the PO stage, has the greatest impact on alignment, with data scaling and prompt diversity as the driving factors. Our codebase and complete results can be found at https://github.com/penfever/sos-bench.
Abstract（参考訳）: 2022年11月のChatGPTのリリースは、ポストトレーニングへの関心の爆発と、新しい選好最適化(PO)メソッドの雪崩を引き起こした。これらの手法は、LLMの審査員によってしばしば測定される、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。 LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進歩に変換されるか、そうでなければ、なぜそうでないのか? 我々は、アライメントのための具体的なメトリクスを定義し、SOS-Benchは、これまでで最大の、再現可能なLLMメタベンチマークである。 1) LLM判断は, 安全性, 世界知識, 指導の具体的な尺度と相関せず, 2) LLM判断者は, 事実性や安全性を優先して, 強い暗黙の偏見を持ち, (3) ポストトレーニングの監督された微調整(SFT)段階は, PO段階ではなく, データのスケーリングと多様性の促進に最も大きな影響を与えている。私たちのコードベースと完全な結果は、https://github.com/penfever/sos-bench.orgで確認できます。

関連論文リスト

Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか? 我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文参考訳（メタデータ） (2025-10-16T16:02:27Z)
The Ranking Blind Spot: Decision Hijacking in LLM-based Text Ranking [17.328293277532]
大規模言語モデル (LLM) は, 通過ランキングなどの情報検索タスクにおいて, 高い性能を示した。本研究では,LLMにおける命令追従能力がマルチドキュメント比較タスクとどのように相互作用するかを検討する。 2つのアプローチにより、このランキングの盲点がLLM評価システムにどのように影響するかを分析する。
論文参考訳（メタデータ） (2025-09-23T02:56:38Z)
Prompt-Based LLMs for Position Bias-Aware Reranking in Personalized Recommendations [0.0]
大規模言語モデル(LLM)は、プロンプトベースのレコメンデーションに採用されている。 LLMは、限られたコンテキストウィンドウサイズ、非効率なポイントワイドおよびペアワイドプロンプト、リストワイドランキングの扱いの難しさといった制限に直面している。本稿では,従来のレコメンデーションモデルとLLMを組み合わせたハイブリッドフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-08T05:01:44Z)
Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文参考訳（メタデータ） (2025-04-23T20:32:12Z)
Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only [37.36302216137465]
我々は,自己整合性,トークン確率,LCM-as-a-judgeに基づく手法を用いて,誤った過激な嗜好を導き出す。実験により、LLMは様々な間違った色合いを区別する予備的な能力を持ち、ランダムな推測よりも最大20.9%高い性能を達成していることが示された。
論文参考訳（メタデータ） (2024-10-14T20:01:52Z)
Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders [31.116716790604116]
大規模言語モデル(LLM)はレコメンデーションコミュニティで注目を集めている。一部の研究では、LLMが完全なソフトマックスでクロスエントロピー(CE)の損失によって微調整された場合、シーケンシャルなレコメンデーションで最先端のパフォーマンスを達成することが観察されている。本研究は,クロスエントロピー損失の優越性を理論的に正当化するものである。
論文参考訳（メタデータ） (2024-08-26T12:52:02Z)
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文参考訳（メタデータ） (2024-08-02T17:55:50Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文参考訳（メタデータ） (2023-12-04T00:46:11Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文参考訳（メタデータ） (2023-06-09T05:55:52Z)
$k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。 $k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-03-24T06:16:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。