論文の概要: The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2603.24124v2
- Date: Fri, 27 Mar 2026 12:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.14981
- Title: The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation
- Title(参考訳): アライメント税:アライメントLDMにおける応答均質化とその不確実性評価への応用
- Authors: Mingyi Liu,
- Abstract要約: RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
- 参考スコア(独自算出の注目度): 1.8345614451086532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RLHF-aligned language models exhibit response homogenization: on TruthfulQA (n=790), 40-79% of questions produce a single semantic cluster across 10 i.i.d. samples. On affected questions, sampling-based uncertainty methods have zero discriminative power (AUROC=0.500), while free token entropy retains signal (0.603). This alignment tax is task-dependent: on GSM8K (n=500), token entropy achieves 0.724 (Cohen's d=0.81). A base-vs-instruct ablation confirms the causal role of alignment: the base model shows 1.0% single-cluster rate vs. 28.5% for the instruct model (p < 10^{-6}). A training stage ablation (Base 0.0% -> SFT 1.5% -> DPO 4.0% SCR) localizes the cause to DPO, not SFT. Cross-family replication on four model families reveals alignment tax severity varies by family and scale. We validate across 22 experiments, 5 benchmarks, 4 model families, and 3 model scales (3B-14B), with Jaccard, embedding, and NLI-based baselines at three DeBERTa scales (all ~0.51 AUROC). Cross-embedder validation with two independent embedding families rules out coupling bias. Cross-dataset validation on WebQuestions (58.0% SCR) confirms generalization beyond TruthfulQA. The central finding -- response homogenization -- is implementation-independent and label-free. Motivated by this diagnosis, we explore a cheapest-first cascade (UCBD) over orthogonal uncertainty signals. Selective prediction raises GSM8K accuracy from 84.4% to 93.2% at 50% coverage; weakly dependent boundaries (|r| <= 0.12) enable 57% cost savings.
- Abstract(参考訳): RLHF 対応言語モデルは応答均質化を示す: TruthfulQA (n=790) では、40-79%の質問が10のサンプルに対して単一のセマンティッククラスタを生成する。
影響された質問に対して、サンプリングベースの不確実性法は識別力ゼロ(AUROC=0.500)であり、自由トークンエントロピーは信号を保持する(0.603)。
このアライメント税はタスク依存であり、GSM8K (n=500)ではトークンエントロピーは0.724(コーエンのd=0.81)に達する。
ベースモデルでは単一クラスタレートが1.0%、インストラクトモデルが28.5%である(p < 10^{-6})。
トレーニング段階アブレーション(Base 0.0% -> SFT 1.5% -> DPO 4.0% SCR)は、SFTではなくDPOに局在する。
4つのモデルファミリーにおけるクロスファミリーレプリケーションは、アライメント税の重大さが家族や規模によって異なることを示している。
我々は、22の実験、5つのベンチマーク、4つのモデルファミリー、3つのモデルスケール(3B-14B)、Jaccard、埋め込み、NLIベースのベースラインを3つのDeBERTaスケール(すべて0.51 AUROC)で検証した。
2つの独立した埋め込みファミリーによるクロスエンベッドダー検証は、カップリングバイアスを除外する。
WebQuestionsのクロスデータセット検証(58.0% SCR)は、TrathfulQAを超える一般化を確認している。
応答均質化という中心的な発見は、実装に依存しない、ラベルのないものである。
この診断を契機に,直交不確実性信号に対して最も安価な第1カスケード(UCBD)を探索した。
選択予測は GSM8K の精度を 84.4% から 93.2% まで50% の範囲で上げ、弱い依存境界 (|r| <= 0.12) は 57% のコスト削減を可能にする。
関連論文リスト
- Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation [0.0]
連鎖忠実性に関する最近の研究は、単一集合数について報告している。
本論文は、忠実性はモデルの客観的かつ測定可能な性質ではないことを示す。
論文 参考訳(メタデータ) (2026-03-20T17:48:43Z) - Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting [0.0]
リスク制御による選択的予測のために,9つの有限サンプル境界ファミリーの包括的アブレーションを提案する。
我々の主要な理論的貢献はTransfer-Informed Betting (TIB) であり、ソースドメインのリスクプロファイルを使用してWSR富裕層プロセスをウォームスタートさせます。
論文 参考訳(メタデータ) (2026-03-09T20:25:18Z) - Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration [0.0]
信頼性レベル -- システムとタスクのペアあたりの1つの番号 -- で答えます。
自己整合性サンプリングは指数関数的に不確実性を減少させる。
共形キャリブレーションは、ターゲットレベルの1/(n+1)以内の正確性を保証する。
論文 参考訳(メタデータ) (2026-02-24T21:03:50Z) - Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:47:55Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - GANDiff FR: Hybrid GAN Diffusion Synthesis for Causal Bias Attribution in Face Recognition [0.0]
GANDiff FRは、人口動態や環境要因を正確に制御し、再現可能な厳密さで偏見を計測し、説明し、低減する最初の合成フレームワークである。
我々は5つのコホートにまたがる1万の人種的バランスのとれた顔を、自動検出と人的レビューによって合成する。
一致する操作ポイントの下でArcFace、CosFace、AdaFaceをベンチマークすると、AdaFaceはグループ間のTPR格差を60%削減する。
GANDiff FR は、純粋な GAN と比較して約20%の計算オーバーヘッドがあるにもかかわらず、3倍の属性条件付き変種が得られる。
論文 参考訳(メタデータ) (2025-08-15T09:05:57Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。