Fugu-MT 論文翻訳(概要): Adaptive Termination for Multi-round Parallel Reasoning: An Universal Semantic Entropy-Guided Framework

論文の概要: Adaptive Termination for Multi-round Parallel Reasoning: An Universal Semantic Entropy-Guided Framework

arxiv url: http://arxiv.org/abs/2507.06829v1
Date: Wed, 09 Jul 2025 13:28:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.597157
Title: Adaptive Termination for Multi-round Parallel Reasoning: An Universal Semantic Entropy-Guided Framework
Title（参考訳）: マルチラウンド並列推論のための適応的終端:ユニバーサルセマンティックエントロピー誘導フレームワーク
Authors: Zenan Xu, Zexuan Qiu, Guanhua Huang, Kun Li, Siheng Li, Chenchen Zhang, Kejiao Li, Qi Yi, Yuhao Jiang, Bo Zhou, Fengzong Lian, Zhanhui Kang,
Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、人工知能への進歩を加速させている。逐次的および並列的推論パラダイムの相補的な長所を生かしたフレキシブルなテスト時協調推論フレームワークを設計することを目指している。
参考スコア（独自算出の注目度）: 12.361554676966552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language models (LLMs) have accelerated progress toward artificial general intelligence, with inference-time scaling emerging as a key technique. Contemporary approaches leverage either sequential reasoning (iteratively extending chains of thought) or parallel reasoning (generating multiple solutions simultaneously) to scale inference. However, both paradigms face fundamental limitations: sequential scaling typically relies on arbitrary token budgets for termination, leading to inefficiency or premature cutoff; while parallel scaling often lacks coordination among parallel branches and requires intrusive fine-tuning to perform effectively. In light of these challenges, we aim to design a flexible test-time collaborative inference framework that exploits the complementary strengths of both sequential and parallel reasoning paradigms. Towards this goal, the core challenge lies in developing an efficient and accurate intrinsic quality metric to assess model responses during collaborative inference, enabling dynamic control and early termination of the reasoning trace. To address this challenge, we introduce semantic entropy (SE), which quantifies the semantic diversity of parallel model responses and serves as a robust indicator of reasoning quality due to its strong negative correlation with accuracy...
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、推論時間スケーリングを鍵となる技術として、人工知能への進歩を加速させている。現代のアプローチでは、推論をスケールするためにシーケンシャルな推論(暫定的に拡張された思考の連鎖)または平行な推論(複数の解を同時に生成する)を利用する。しかし、両方のパラダイムは基本的な制限に直面している: シーケンシャルスケーリングは一般的に終端の任意のトークン予算に依存し、非効率性や早期のカットオフにつながる。これらの課題を踏まえ、逐次的および並列的推論パラダイムの相補的強みを利用する柔軟なテスト時協調推論フレームワークを設計することを目指している。この目標に向けて、コアとなる課題は、協調推論中のモデル応答を評価し、動的制御と推論トレースの早期終了を可能にする、効率的で正確な内在的品質指標を開発することである。この課題に対処するために,並列モデル応答のセマンティックな多様性を定量化するセマンティックエントロピー(SE)を導入する。

関連論文リスト

ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。 DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文参考訳（メタデータ） (2025-06-23T16:20:44Z)
AdapThink: Adaptive Thinking Preferences for Reasoning Language Model [32.47427081297578]
強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
論文参考訳（メタデータ） (2025-06-23T02:06:04Z)
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning [20.901961243513835]
CoT(Chain-of-Thought)は、複雑な推論機能を備えた大規模言語モデル(LLM)の実現において、必要不可欠な役割を担っている。本稿では,CoT推論を補足と必要の両レンズで特徴付ける因果的枠組みを提案する。
論文参考訳（メタデータ） (2025-06-11T15:22:09Z)
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Inference Acceleration of Autoregressive Normalizing Flows by Selective Jacobi Decoding [12.338918067455436]
正規化フローは、理論的厳密性、分析的対数類似性、エンドツーエンドトレーニングなどの利点を持つ有望な生成モデルである。近年の進歩は自己回帰モデリングを活用し、表現力と生成品質を大幅に向上させた。並列反復最適化により自己回帰推論を高速化する選択的ヤコビ復号法(SeJD)を提案する。
論文参考訳（メタデータ） (2025-05-30T16:53:15Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
a1: Steep Test-time Scaling Law via Environment Augmented Generation [45.19240207975418]
Environment Augmented Generation (EAG) は、大規模言語モデルの推論をリアルタイムな環境フィードバックによって強化するフレームワークである。 EAGは、実行フィードバックと分岐探索の緊密な統合を通じて、意図的にバックトラックと戦略的再計画を可能にする。 A1-32Bモデルは、すべてのベンチマークで類似サイズのモデル間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-20T12:55:59Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。推論性能を改善するための新しいCoTフレームワークを提案する。本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-12-14T13:12:50Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。