論文の概要: RelayGen: Intra-Generation Model Switching for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2602.06454v1
- Date: Fri, 06 Feb 2026 07:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.283221
- Title: RelayGen: Intra-Generation Model Switching for Efficient Reasoning
- Title(参考訳): RelayGen: 効率的な推論のための世代内モデルスイッチング
- Authors: Jiwon Song, Yoongon Kim, Jae-Joon Kim,
- Abstract要約: RelayGenはトレーニングフリーのセグメントレベルのランタイムモデルスイッチングフレームワークである。
長文推論における難易度の変化を利用する。
大規模なモデルの精度の大部分を保ちながら、推論遅延を大幅に低減します。
- 参考スコア(独自算出の注目度): 9.678190958232024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) achieve strong performance on complex reasoning tasks by generating long, multi-step reasoning trajectories, but inference-time scaling incurs substantial deployment cost. A key challenge is that generation difficulty varies within a single output, whereas existing efficiency-oriented approaches either ignore this intra-generation variation or rely on supervised token-level routing with high system complexity. We present \textbf{RelayGen}, a training-free, segment-level runtime model switching framework that exploits difficulty variation in long-form reasoning. Through offline analysis of generation uncertainty using token probability margins, we show that coarse-grained segment-level control is sufficient to capture difficulty transitions within a reasoning trajectory. RelayGen identifies model-specific switch cues that signal transitions to lower-difficulty segments and dynamically delegates their continuation to a smaller model, while preserving high-difficulty reasoning on the large model. Across multiple reasoning benchmarks, RelayGen substantially reduces inference latency while preserving most of the accuracy of large models. When combined with speculative decoding, RelayGen achieves up to 2.2$\times$ end-to-end speedup with less than 2\% accuracy degradation, without requiring additional training or learned routing components.
- Abstract(参考訳): 大きな推論モデル(LRM)は、長い多段階の推論軌道を生成することによって複雑な推論タスクにおいて高い性能を達成するが、推論時間スケーリングは相当なデプロイメントコストをもたらす。
鍵となる課題は、生成の難しさが単一の出力内で異なることである。一方、既存の効率志向のアプローチは、この世代内での変動を無視したり、システムの複雑さの高いトークンレベルのルーティングに依存する。
本稿では,長文推論における難易度変化を利用したトレーニング不要なセグメントレベルのランタイムモデルスイッチングフレームワークである‘textbf{RelayGen} を紹介する。
トークン確率マージンを用いた生成の不確かさのオフライン解析により、粗いセグメントレベルの制御は推論軌道内での難易度遷移を捉えるのに十分であることを示す。
RelayGenは、低差分セグメントへの遷移を信号するモデル固有のスイッチキューを特定し、その継続をより小さなモデルに動的に委譲すると同時に、大きなモデルに対する高差分推論を保存する。
複数の推論ベンチマークを通じて、RelayGenは大規模なモデルの精度の大部分を保ちながら、推論遅延を大幅に削減する。
RelayGenは投機的デコーディングと組み合わせて最大2.2$\times$ end-to-endのスピードアップを2\%未満の精度で達成する。
関連論文リスト
- Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Rough Transformers: Lightweight and Continuous Time Series Modelling through Signature Patching [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Rough Transformers for Continuous and Efficient Time-Series Modelling [46.58170057001437]
実世界の医療環境における時系列データは、典型的には長距離依存を示し、一様でない間隔で観察される。
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
Rough Transformersは、Neural ODEベースのモデルの利点を得ながら、バニラアテンションを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-15T13:29:45Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。