論文の概要: When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.03314v2
- Date: Wed, 06 May 2026 01:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 15:17:35.946879
- Title: When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
- Title(参考訳): いつ考えるか: LLM推論のための開示ポリシーを学ぶ
- Authors: Jiaqi Wei, Xuehang Guo, Pengfei Yu, Xiang Zhang, Wanli Ouyang, Siqi Sun, Qingyun Wang, Chenyu You,
- Abstract要約: シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
- 参考スコア(独自算出の注目度): 60.714416943748866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In single-stream autoregressive interfaces, the same tokens both update the model state and constitute an irreversible public commitment. This coupling creates a silence tax: additional deliberation postpones the first task-relevant content, while naive early streaming risks premature commitments that bias subsequent generations. We introduce Side-by-Side (SxS) Interleaved Reasoning, which makes disclosure timing a controllable decision within standard autoregressive generation. SxS interleaves partial disclosures with continued private reasoning in the same context, but releases content only when it is supported by the reasoning so far. To learn such pacing without incentivizing filler, we construct entailment-aligned interleaved trajectories by matching answer prefixes to supporting reasoning prefixes, then train with SFT to acquire the dual-action semantics and RL to recover reasoning performance under the new format. Across two Qwen3 architectures/scales (MoE Qwen3-30B-A3B, dense Qwen3-4B) and both in-domain (AIME25) and out-of-domain (GPQA-Diamond) benchmarks, SxS improves accuracy--content-latency Pareto trade-offs under token-level proxies such as inter-update waiting.
- Abstract(参考訳): シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
この結合はサイレント税を生み出し、追加の審議によって最初のタスク関連コンテンツが延期される。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
SxSは、プライベートな推論を同じ文脈で継続する部分的開示をインターリーブするが、コンテンツは、これまでの推論でサポートされている場合にのみリリースする。
補間器をインセンティブなく学習するために,回答の接頭辞と推論の接頭辞をマッチングし,さらにSFTを用いて2つのアクションセマンティクスとRLを学習し,新たなフォーマットで推論性能を回復する。
2つのQwen3アーキテクチャ/スケール(MoE Qwen3-30B-A3B、密度の高いQwen3-4B)と、ドメイン内(AIME25)とドメイン外(GPQA-Diamond)ベンチマークの両方で、SxSは、更新待ちなどのトークンレベルのプロキシの下で、正確-コンテンツ-レイテンシのParetoトレードオフを改善する。
関連論文リスト
- Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions [75.23170605943457]
textbfmodelは、メモリ統合から推論制御を分離するフレームワークである。
emphActive Thinking Decision Maker (ATDM)は、決定プロセスの外部化を行う透明な推論コントローラである。
emphHierarchical Progressive Semantic Integration (HPSI)モジュールは効率的なメモリシステムとして機能する。
論文 参考訳(メタデータ) (2026-04-20T16:15:33Z) - Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction [49.03500737694832]
textbfReinforcement textbfLearning with textbfTurn textbfRLSTA。
実験の結果,RTSTAは標準微調整法や禁忌法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-03-05T04:04:59Z) - SoftHateBench: Evaluating Moderation Models Against Reasoning-Driven, Policy-Compliant Hostility [6.293833791034378]
textbftextscSoftHateBenchは,敵対的立場を維持しながらソフトヘイトな変種を生成する生成ベンチマークである。
このベンチマークは、textbf7社会文化的ドメインとtextbf28ターゲットグループにまたがっており、textbf4,745のソフトヘイトインスタンスを含んでいる。
エンコーダベースの検出器、汎用LLM、安全モデルによる評価は、ハード層からソフト層への一貫した低下を示している。
論文 参考訳(メタデータ) (2026-01-28T05:04:18Z) - Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism [19.7914286780195]
textscDouble (Double Retrieval Speculative Parallelism)を紹介する。
提案手法は,理論的な高速化限界を断ち切るために反復的検索投機を実行する。
実験では、LLaMA3.3-70Bで$textbf5.3times$、Qwen3-32Bで$textbf2.8times$の最先端のスピードアップが示されている。
論文 参考訳(メタデータ) (2026-01-09T04:35:21Z) - Exploiting Tree Structure for Credit Assignment in RL Training of LLMs [11.64053639889468]
強化学習は推論を改善するが、長いシーケンスよりも遅れた報酬はトークンレベルのクレジット割り当てを重要なボトルネックにする。
最終回答がチェック可能で、プロンプト毎に複数の応答を描画できる検証可能な逆設定について検討する。
textbfTEMPO (emphtextbfTree-textbfEstimated textbfMean Prefix Value for textbfPolicy textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2025-09-22T18:37:24Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Dual-Level Decoupled Transformer for Video Captioning [15.193977761440404]
ビデオキャプションは、ビデオの意味概念を理解し、記述文を生成することを目的としている。
MathcalD2$はデュアルレベルの視覚分離型トランスフォーマーパイプラインである。
emph(i)をビデオ時間表現に用い,その過程を「第1空間時間」パラダイムに分離する。
論文 参考訳(メタデータ) (2022-05-06T06:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。