論文の概要: Adaptive Termination for Multi-round Parallel Reasoning: An Universal Semantic Entropy-Guided Framework
- arxiv url: http://arxiv.org/abs/2507.06829v1
- Date: Wed, 09 Jul 2025 13:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.597157
- Title: Adaptive Termination for Multi-round Parallel Reasoning: An Universal Semantic Entropy-Guided Framework
- Title(参考訳): マルチラウンド並列推論のための適応的終端:ユニバーサルセマンティックエントロピー誘導フレームワーク
- Authors: Zenan Xu, Zexuan Qiu, Guanhua Huang, Kun Li, Siheng Li, Chenchen Zhang, Kejiao Li, Qi Yi, Yuhao Jiang, Bo Zhou, Fengzong Lian, Zhanhui Kang,
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、人工知能への進歩を加速させている。
逐次的および並列的推論パラダイムの相補的な長所を生かしたフレキシブルなテスト時協調推論フレームワークを設計することを目指している。
- 参考スコア(独自算出の注目度): 12.361554676966552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have accelerated progress toward artificial general intelligence, with inference-time scaling emerging as a key technique. Contemporary approaches leverage either sequential reasoning (iteratively extending chains of thought) or parallel reasoning (generating multiple solutions simultaneously) to scale inference. However, both paradigms face fundamental limitations: sequential scaling typically relies on arbitrary token budgets for termination, leading to inefficiency or premature cutoff; while parallel scaling often lacks coordination among parallel branches and requires intrusive fine-tuning to perform effectively. In light of these challenges, we aim to design a flexible test-time collaborative inference framework that exploits the complementary strengths of both sequential and parallel reasoning paradigms. Towards this goal, the core challenge lies in developing an efficient and accurate intrinsic quality metric to assess model responses during collaborative inference, enabling dynamic control and early termination of the reasoning trace. To address this challenge, we introduce semantic entropy (SE), which quantifies the semantic diversity of parallel model responses and serves as a robust indicator of reasoning quality due to its strong negative correlation with accuracy...
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論時間スケーリングを鍵となる技術として、人工知能への進歩を加速させている。
現代のアプローチでは、推論をスケールするためにシーケンシャルな推論(暫定的に拡張された思考の連鎖)または平行な推論(複数の解を同時に生成する)を利用する。
しかし、両方のパラダイムは基本的な制限に直面している: シーケンシャルスケーリングは一般的に終端の任意のトークン予算に依存し、非効率性や早期のカットオフにつながる。
これらの課題を踏まえ、逐次的および並列的推論パラダイムの相補的強みを利用する柔軟なテスト時協調推論フレームワークを設計することを目指している。
この目標に向けて、コアとなる課題は、協調推論中のモデル応答を評価し、動的制御と推論トレースの早期終了を可能にする、効率的で正確な内在的品質指標を開発することである。
この課題に対処するために,並列モデル応答のセマンティックな多様性を定量化するセマンティックエントロピー(SE)を導入する。
関連論文リスト
- DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning [0.5371337604556311]
TestTTは、テストタイム最適化戦略を割り当てる、困難に認識され、コンセンサスに導かれるセルフカリキュラムフレームワークである。
TestTTが強い計算ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-05T16:38:50Z) - Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models [29.56923793047279]
本稿では,冗長トークンを選択的に抑制する訓練時間介入であるDynamic Outlier Truncation(DOT)を紹介する。
DOTは、完全に正しいロールアウトグループ内での応答長の極端のみを目標とし、長い水平推論能力を保っている。
提案手法は,初期ポリシーに比べて精度を高くしながら,推論トークンの使用率を78%削減する。
論文 参考訳(メタデータ) (2026-01-07T14:31:07Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。
ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。
ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文 参考訳(メタデータ) (2025-11-24T18:55:59Z) - SpiralThinker: Latent Reasoning through an Iterative Process with Text-Latent Interleaving [4.732347368043908]
SpiralThinkerは、潜在表現を反復的に更新する統合フレームワークである。
構造化アノテーションと組み合わせたプログレッシブアライメントの目的は、潜在的推論とテキスト推論のコヒーレンスを維持する。
論文 参考訳(メタデータ) (2025-11-12T05:05:42Z) - A Survey on Parallel Reasoning [58.66122129692264]
まず、並列推論の形式的定義を示し、その区別をChain-of-Thoughtのような関連する概念と明確にする。
次に、非対話的推論、対話的推論、効率を重視した復号戦略を含む、新しい分類法に基づく高度な手法を編成し、議論する。
並列推論の中核的な課題を強調し,今後の研究の方向性を示唆する。
論文 参考訳(メタデータ) (2025-10-14T05:42:19Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - AdapThink: Adaptive Thinking Preferences for Reasoning Language Model [32.47427081297578]
強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。
しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。
より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
論文 参考訳(メタデータ) (2025-06-23T02:06:04Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning [20.901961243513835]
CoT(Chain-of-Thought)は、複雑な推論機能を備えた大規模言語モデル(LLM)の実現において、必要不可欠な役割を担っている。
本稿では,CoT推論を補足と必要の両レンズで特徴付ける因果的枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-11T15:22:09Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Inference Acceleration of Autoregressive Normalizing Flows by Selective Jacobi Decoding [12.338918067455436]
正規化フローは、理論的厳密性、分析的対数類似性、エンドツーエンドトレーニングなどの利点を持つ有望な生成モデルである。
近年の進歩は自己回帰モデリングを活用し、表現力と生成品質を大幅に向上させた。
並列反復最適化により自己回帰推論を高速化する選択的ヤコビ復号法(SeJD)を提案する。
論文 参考訳(メタデータ) (2025-05-30T16:53:15Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - a1: Steep Test-time Scaling Law via Environment Augmented Generation [45.19240207975418]
Environment Augmented Generation (EAG) は、大規模言語モデルの推論をリアルタイムな環境フィードバックによって強化するフレームワークである。
EAGは、実行フィードバックと分岐探索の緊密な統合を通じて、意図的にバックトラックと戦略的再計画を可能にする。
A1-32Bモデルは、すべてのベンチマークで類似サイズのモデル間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-20T12:55:59Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。