論文の概要: When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.03314v1
- Date: Tue, 05 May 2026 02:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.742115
- Title: When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
- Title(参考訳): いつ考えるか: LLM推論のための開示ポリシーを学ぶ
- Authors: Jiaqi Wei, Xuehang Guo, Pengfei Yu, Xiang Zhang, Wanli Ouyang, Siqi Sun, Qingyun Wang, Chenyu You,
- Abstract要約: シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
SxS (textbfemphSide-by-Side) Interleaved Reasoningを導入した。
- 参考スコア(独自算出の注目度): 60.714416943748866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In single-stream autoregressive interfaces, the same tokens both update the model state and constitute an irreversible public commitment. This coupling creates a \emph{silence tax}: additional deliberation postpones the first \emph{task-relevant} content, while naive early streaming risks premature commitments that bias subsequent generations. We introduce \textbf{\emph{Side-by-Side (SxS)}} Interleaved Reasoning, which makes \emph{disclosure timing} a controllable decision within standard autoregressive generation. SxS interleaves partial disclosures with continued private reasoning in the same context, but releases content only when it is \emph{supported} by the reasoning so far. To learn such pacing without incentivizing filler, we construct entailment-aligned interleaved trajectories by matching answer prefixes to supporting reasoning prefixes, then train with SFT to acquire the dual-action semantics and RL to recover reasoning performance under the new format. Across two Qwen3 architectures/scales (MoE \textbf{Qwen3-30B-A3B}, dense \textbf{Qwen3-4B}) and both in-domain (AIME25) and out-of-domain (GPQA-Diamond) benchmarks, SxS improves accuracy--\emph{content-latency} Pareto trade-offs under token-level proxies (e.g., inter-update waiting).
- Abstract(参考訳): シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
この結合は \emph{silence tax} を生成する: 追加の審議は最初の \emph{task-relevant} コンテンツを延期するが、初期ストリーミングのリスクを負うことは、後続の世代を偏見させる。
本稿では、標準自己回帰生成における制御可能な決定を \textbf{\emph{Side-by-Side (SxS)}} Interleaved Reasoning に導入する。
SxSは、同じ文脈でプライベートな推論を継続しながら部分的開示をインターリーブするが、これまでは推論によって「emph{ supported}」である場合にのみコンテンツをリリースする。
補間器をインセンティブなく学習するために,回答の接頭辞と推論の接頭辞をマッチングし,さらにSFTを用いて2つのアクションセマンティクスとRLを学習し,新たなフォーマットで推論性能を回復する。
2つのQwen3アーキテクチャ/スケール(MoE \textbf{Qwen3-30B-A3B}、高密度な \textbf{Qwen3-4B})と、ドメイン内(AIME25)とドメイン外(GPQA-Diamond)ベンチマークの両方で、SxSは正確性を改善する。
関連論文リスト
- Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions [75.23170605943457]
textbfmodelは、メモリ統合から推論制御を分離するフレームワークである。
emphActive Thinking Decision Maker (ATDM)は、決定プロセスの外部化を行う透明な推論コントローラである。
emphHierarchical Progressive Semantic Integration (HPSI)モジュールは効率的なメモリシステムとして機能する。
論文 参考訳(メタデータ) (2026-04-20T16:15:33Z) - Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction [49.03500737694832]
textbfReinforcement textbfLearning with textbfTurn textbfRLSTA。
実験の結果,RTSTAは標準微調整法や禁忌法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-03-05T04:04:59Z) - SoftHateBench: Evaluating Moderation Models Against Reasoning-Driven, Policy-Compliant Hostility [6.293833791034378]
textbftextscSoftHateBenchは,敵対的立場を維持しながらソフトヘイトな変種を生成する生成ベンチマークである。
このベンチマークは、textbf7社会文化的ドメインとtextbf28ターゲットグループにまたがっており、textbf4,745のソフトヘイトインスタンスを含んでいる。
エンコーダベースの検出器、汎用LLM、安全モデルによる評価は、ハード層からソフト層への一貫した低下を示している。
論文 参考訳(メタデータ) (2026-01-28T05:04:18Z) - Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism [19.7914286780195]
textscDouble (Double Retrieval Speculative Parallelism)を紹介する。
提案手法は,理論的な高速化限界を断ち切るために反復的検索投機を実行する。
実験では、LLaMA3.3-70Bで$textbf5.3times$、Qwen3-32Bで$textbf2.8times$の最先端のスピードアップが示されている。
論文 参考訳(メタデータ) (2026-01-09T04:35:21Z) - Exploiting Tree Structure for Credit Assignment in RL Training of LLMs [11.64053639889468]
強化学習は推論を改善するが、長いシーケンスよりも遅れた報酬はトークンレベルのクレジット割り当てを重要なボトルネックにする。
最終回答がチェック可能で、プロンプト毎に複数の応答を描画できる検証可能な逆設定について検討する。
textbfTEMPO (emphtextbfTree-textbfEstimated textbfMean Prefix Value for textbfPolicy textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2025-09-22T18:37:24Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Dual-Level Decoupled Transformer for Video Captioning [15.193977761440404]
ビデオキャプションは、ビデオの意味概念を理解し、記述文を生成することを目的としている。
MathcalD2$はデュアルレベルの視覚分離型トランスフォーマーパイプラインである。
emph(i)をビデオ時間表現に用い,その過程を「第1空間時間」パラダイムに分離する。
論文 参考訳(メタデータ) (2022-05-06T06:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。