論文の概要: One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness
- arxiv url: http://arxiv.org/abs/2604.13006v1
- Date: Tue, 14 Apr 2026 17:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.592057
- Title: One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness
- Title(参考訳): 失敗から逃れる1つの方法 : 指導・調整によるヘルプフルネスの脆弱さ
- Authors: Erfan Baghaei Potraghloo, Seyedarmin Azizi, Souvik Kundu, Massoud Pedram,
- Abstract要約: 単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
- 参考スコア(独自算出の注目度): 12.183451602438753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned large language models produce helpful, structured responses, but how robust is this helpfulness when trivially constrained? We show that simple lexical constraints (banning a single punctuation character or common word) cause instruction-tuned LLMs to collapse their responses, losing 14--48% of comprehensiveness in pairwise evaluation across three open-weight model families and one closed-weight model (GPT-4o-mini). The baseline response is preferred in 77--100% of 1,920 pairwise comparisons judged by GPT-4o-mini and GPT-4o. Notably, GPT-4o-mini suffers 31% comprehensiveness loss (99% baseline win rate), demonstrating that the fragility extends to commercially deployed closed-weight models, contrary to prior findings on format-level constraints. Through mechanistic analysis, we identify this as a planning failure: two-pass generation (free generation followed by constrained rewriting) recovers 59--96% of response length, and linear probes on prompt representations predict response length with $R^2 = 0.51$--$0.93$ before generation begins, with $R^2$ tracking collapse severity across models. The same probes yield negative $R^2$ on base models, confirming that instruction tuning creates the representational structure encoding the collapse decision. Crucially, base models show no systematic collapse under identical constraints, with effects that are small, noisy, and bidirectional, demonstrating that instruction tuning creates this fragility by coupling task competence to narrow surface-form templates. The effect replicates on MT-Bench across all eight task categories. We further show that standard independent LLM-as-judge evaluation detects only a 3.5% average quality drop where pairwise evaluation reveals 23%, exposing a methodological blind spot in how constrained generation is assessed.
- Abstract(参考訳): インストラクションをチューニングした大規模言語モデルは、有用な構造化された応答を生成するが、自明に制約された場合、この有用性はどの程度堅牢か?
簡単な語彙制約(句読解文字や共通単語の禁止)により命令調整されたLLMは応答を崩壊させ,3つのオープンウェイトモデルファミリと1つのクローズドウェイトモデル(GPT-4o-mini)の相互評価において14~48%の包括性が失われることを示した。
GPT-4o-miniおよびGPT-4oで判定された1,920対比較の77-100%の基線応答が好ましい。
特に、GPT-4o-miniは31%の包括性損失(99%のベースライン勝利率)を被り、フォーマットレベルの制約に関する以前の発見とは対照的に、商業的にデプロイされたクローズドウェイトモデルに脆弱性が拡張されていることを示す。
メカニスティック解析により、2パス生成(フリージェネレーションと制約されたリライト)は59-96%の応答長を回復し、リニアプローブは、生成開始前のR^2 = 0.51$-$0.93$で応答長を予測する。
同じプローブがベースモデル上で負の$R^2$となり、命令チューニングが崩壊決定を符号化する表現構造を生成することを確認する。
重要なことに、ベースモデルは、同じ制約の下で体系的な崩壊を示さず、小さな、うるさい、双方向的な効果を持ち、命令チューニングが、狭い表面形状のテンプレートにタスク能力を結合することで、この不安定さを生じさせることを示した。
この効果はMT-Benchを8つのタスクカテゴリで再現する。
さらに, 標準独立型LCM-as-judge評価では, 対評価が23%となる平均品質低下が3.5%しか検出できないことを示し, 制約生成の評価方法の方法論的盲点を明らかにする。
関連論文リスト
- The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning [9.898274894485107]
大きな言語モデルは、サージェントサーフェスキューが計算不可能な実行可能性制約と競合する場合に、体系的に失敗する。
診断・診断・ブリッジ・トリート・フレームワークを用いてこれを研究する。
論文 参考訳(メタデータ) (2026-03-30T21:36:09Z) - Brevity Constraints Reverse Performance Hierarchies in Language Models [0.0]
ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
論文 参考訳(メタデータ) (2026-03-11T06:47:41Z) - Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations [2.5782420501870296]
CoT(Chain-of-Thought)プロンプトは,Large Language Models(LLMs)から推論を引き出す基礎技術として登場した。
本稿は,5種類のCoT摂動型に対するロバスト性に関する総合的な実証的評価を示す: textitMathError, UnitConversion, Sycophancy, SkippedSteps, textitExtraSteps。
論文 参考訳(メタデータ) (2026-02-11T03:11:30Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs [0.0]
次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した耐性を示すかどうかを評価する。
9つの現代的なオープンウェイトモデルにまたがって効果を再現する。
論文 参考訳(メタデータ) (2025-11-25T09:25:33Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。