論文の概要: From Hallucination to Structure Snowballing: The Alignment Tax of Constrained Decoding in LLM Reflection
- arxiv url: http://arxiv.org/abs/2604.06066v1
- Date: Tue, 07 Apr 2026 16:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.936218
- Title: From Hallucination to Structure Snowballing: The Alignment Tax of Constrained Decoding in LLM Reflection
- Title(参考訳): 幻覚から構造雪玉:LLM反射における制約デコーディングのアライメント税
- Authors: Hongxu Zhou,
- Abstract要約: 「大型言語モデル(LLM)における固有の自己補正は、幻覚雪球によるオープンエンド推論タスクでしばしば失敗する」
本研究は,制約付き復号法により構造的反射を純粋に強制することが,追加の訓練を伴わずに誤りの伝播を阻害するかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intrinsic self-correction in Large Language Models (LLMs) frequently fails in open-ended reasoning tasks due to ``hallucination snowballing,'' a phenomenon in which models recursively justify early errors during free-text reflection. While structured feedback can mitigate this issue, existing approaches often rely on externally trained critics or symbolic tools, reducing agent autonomy. This study investigates whether enforcing structured reflection purely through Outlines-based constrained decoding can disrupt error propagation without additional training. Evaluating an 8-billion-parameter model (Qwen3-8B), we show that simply imposing structural constraints does not improve self-correction performance. Instead, it triggers a new failure mode termed ``structure snowballing.'' We find that the cognitive load required to satisfy strict formatting rules pushes the model into formatting traps. This observation helps explain why the agent achieves near-perfect superficial syntactic alignment yet fails to detect or resolve deeper semantic errors. These findings expose an ``alignment tax'' inherent to constrained decoding, highlighting a tension between structural granularity and internal model capacity in autonomous workflows. Code and raw logs are available in the GitHub repository: https://github.com/hongxuzhou/agentic_llm_structured_self_critique.
- Abstract(参考訳): 大規模言語モデル(LLM)の内在的自己補正は、自由テキストリフレクションにおいて、モデルが早期エラーを再帰的に正当化する現象である ''hallucination snowballing' によって、オープンな推論タスクでしばしば失敗する。
構造化されたフィードバックはこの問題を軽減することができるが、既存のアプローチはしばしば外部から訓練された批評家や象徴的なツールに依存し、エージェントの自律性を低下させる。
本研究では,Outlinesに基づく制約付き復号法で構造的リフレクションを純粋に強制することは,付加的な訓練を伴わずに誤りの伝播を阻害するかどうかを考察する。
8ビリオンパラメータモデル (Qwen3-8B) を評価し, 構造的制約を単純に適用しても自己補正性能は向上しないことを示した。
その代わり、``structure snowballing'と呼ばれる新しい障害モードをトリガーする。
厳格なフォーマット規則を満たすために必要な認知的負荷は、モデルをフォーマットトラップにプッシュする。
この観察は、なぜエージェントがほぼ完全な表面的構文的アライメントを達成するのかを説明するのに役立ち、より深いセマンティックエラーを検出したり、解決するのに失敗する。
これらの結果は,制約付き復号法に固有の ‘アライメント税’ を明らかにし,自律ワークフローにおける構造的粒度と内部モデル容量の緊張関係を明らかにする。
コードと生のログはGitHubリポジトリで入手できる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - Contextual Drag: How Errors in the Context Affect LLM Reasoning [38.35611637575897]
我々はコンテキストドラッグと呼ばれる現象を研究する。
文脈における失敗した試みの存在は、その後の世代を構造的に類似した誤りにバイアスする。
外部からのフィードバックも自己検証の成功も、この効果を排除するのに十分でないことを示す。
論文 参考訳(メタデータ) (2026-02-04T07:36:23Z) - Autoregressive, Yet Revisable: In Decoding Revision for Secure Code Generation [17.125957722393327]
Stream of Revision(ストリーム・オブ・リビジョン)は、モノトニックストリームから動的で自己修正的な軌道へのコード生成を高めるパラダイムシフトである。
モデルがシームレスにバックトラックし、単一のフォワードパス内で自身の履歴を編集できるように、特定のアクショントークンを導入します。
論文 参考訳(メタデータ) (2026-02-01T12:22:46Z) - Beyond Output Critique: Self-Correction via Task Distillation [36.44752912823049]
本稿では,ソリューションの洗練に先立ってタスク抽象化の中間段階を導入するフレームワークを提案する。
入力と初期応答が与えられた後、モデルはまず、主要な変数、制約、問題構造をキャプチャする構造化テンプレートにタスクを蒸留する。
この抽象化により、解のインスタンス化が導かれ、タスクのより明確な理解において、その後の応答がグラウンド化される。
論文 参考訳(メタデータ) (2026-01-31T19:15:41Z) - The Compliance Paradox: Semantic-Instruction Decoupling in Automated Academic Code Evaluation [11.984098021215878]
SPACI(Semantic-Preserving Adrial Code Injection)フレームワークとAST-ASIP(Abstract Syntax Tree-Aware Semantic Injection Protocol)を紹介する。
これらの方法は、抽象構文木(英語版)の構文的に不活性な領域(トリヴィアノード)に逆方向の指示を埋め込むことにより、構文解析ギャップを利用する。
Python、C、C++、Javaの25,000のサブミッションにまたがる9つのSOTAモデルの大規模な評価を通じて、DeepSeek-V3のような高容量オープンウェイトモデルにおいて、破滅的な失敗率(>95%)を明らかにします。
論文 参考訳(メタデータ) (2026-01-29T07:40:58Z) - CRAFT: Continuous Reasoning and Agentic Feedback Tuning for Multimodal Text-to-Image Generation [0.0]
CRAFT(Continuous Reasoning and Agentic Feedback Tuning)は、マルチモーダル画像生成に構造化推論パラダイムをもたらす、トレーニング不要でモデルに依存しないフレームワークである。
コンポジション精度、テキストレンダリング、好みに基づく評価を一貫して改善する。
これらの改善は無視できる推論時間のオーバーヘッドに過ぎず、より小型または安価なモデルでより高価なシステムの品質にアプローチすることができる。
論文 参考訳(メタデータ) (2025-12-23T13:44:41Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。