論文の概要: SynapseRoute: An Auto-Route Switching Framework on Dual-State Large Language Model
- arxiv url: http://arxiv.org/abs/2507.02822v1
- Date: Thu, 03 Jul 2025 17:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.774008
- Title: SynapseRoute: An Auto-Route Switching Framework on Dual-State Large Language Model
- Title(参考訳): SynapseRoute: デュアル状態大言語モデルに基づく自動ルートスイッチングフレームワーク
- Authors: Wencheng Zhang, Shiqin Qiao, Lingjie Luo, Yinfeng Li, Chuanyang Zheng, Qian Xu, Meng Li, Yong Gui, Yijun He, Jianing Qiu, Jindong Hong, Jiankai Sun,
- Abstract要約: その結果,医療質問の約58%は,非思考モードだけで正確に回答できることがわかった。
機械学習に基づく動的ルーティングフレームワークであるSynapseRouteを提案する。
- 参考スコア(独自算出の注目度): 12.929385845055137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of large language models (LLMs) in practical applications, selecting an appropriate model requires balancing not only performance but also operational cost. The emergence of reasoning-capable models has further widened the cost gap between "thinking" (high reasoning) and "non-thinking" (fast, low-cost) modes. In this work, we reveal that approximately 58% of medical questions can be accurately answered by the non-thinking mode alone, without requiring the high-cost reasoning process. This highlights a clear dichotomy in problem complexity and suggests that dynamically routing queries to the appropriate mode based on complexity could optimize accuracy, cost-efficiency, and overall user experience. Based on this, we further propose SynapseRoute, a machine learning-based dynamic routing framework that intelligently assigns input queries to either thinking or non-thinking modes. Experimental results on several medical datasets demonstrate that SynapseRoute not only improves overall accuracy (0.8390 vs. 0.8272) compared to the thinking mode alone but also reduces inference time by 36.8% and token consumption by 39.66%. Importantly, qualitative analysis indicates that over-reasoning on simpler queries can lead to unnecessary delays and even decreased accuracy, a pitfall avoided by our adaptive routing. Finally, this work further introduces the Accuracy-Inference-Token (AIT) index to comprehensively evaluate the trade-offs among accuracy, latency, and token cost.
- Abstract(参考訳): 実用アプリケーションで大規模言語モデル(LLM)が広く採用されているため、適切なモデルを選択するには、パフォーマンスだけでなく運用コストのバランスを取る必要がある。
推論可能なモデルの出現により、"思考"(高い推論)と"非思考"(高速で低コスト)モードの間のコストギャップはさらに拡大した。
本研究では,医療質問の約58%が,コストのかかる推論処理を必要とせずに,非思考モードだけで正確に回答できることを明らかにする。
これは、問題複雑性の明確な二分法を強調し、複雑さに基づいたクエリを適切なモードに動的にルーティングすることで、正確性、コスト効率、全体的なユーザエクスペリエンスを最適化できることを示唆している。
これに基づいて,機械学習に基づく動的ルーティングフレームワークであるSynapseRouteを提案する。
いくつかの医学データセットの実験結果から、SynapseRouteは思考モードのみと比較して全体的な精度(0.8390 vs. 0.8272)を向上するだけでなく、推論時間を36.8%削減し、トークン消費を39.66%削減することが示された。
重要な点として、定性的な分析は、単純なクエリの過剰な推論が不要な遅延を招き、精度を低下させる可能性があることを示唆している。
最後に、この作業は、精度、レイテンシ、トークンコストのトレードオフを包括的に評価する、精度推論トークン(AIT)インデックスをさらに導入する。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Models Under SCOPE: Scalable and Controllable Routing via Pre-hoc Reasoning [28.165465162107253]
コストと性能を予測してモデル選択を超えるルーティングフレームワークであるSCOPEを提案する。
SCOPEは、モデル名の固定に依存するのではなく、モデルがどのように同様の問題に対処するかを検索することで、推論に基づく予測を行う。
性能が優先される場合の精度を最大25.7%向上させるか、効率が重要な場合のコストを最大95.1%削減することができる。
論文 参考訳(メタデータ) (2026-01-29T21:09:36Z) - RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts [10.808072653940263]
協調推論は、軽量モデルと大規模モデルの間の作業を選択的に割り当てることで、有望なソリューションを提供する。
ステップワイドなコラボレーションに関する新しい視点を提案する。推論ステップの難しさは,最初のトークンから推測できる。
Glimpは軽量なモデルを使用して、各推論ステップの最初のトークンのみを生成し、初期トークンエントロピーがしきい値を超えた場合にのみ、ステップをより大きなモデルにルーティングする。
論文 参考訳(メタデータ) (2026-01-08T16:58:07Z) - Optimizing Reasoning Efficiency through Prompt Difficulty Prediction [14.470330195517903]
推論言語モデルは複雑なタスクでうまく機能するが、そのサイズと長い推論トレースのためにデプロイするのにコストがかかる。
本稿では,各問題を解きそうな最小のモデルに割り当てるルーティング手法を提案し,精度を犠牲にすることなく計算量を削減した。
論文 参考訳(メタデータ) (2025-11-05T19:14:53Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces [40.127653552777204]
人間の思考は、システム1とシステム2の2つのシステムによって管理されている。
近年, System 2 プロセスを Transformer に組み込むことで推論能力が大きく向上することが報告されている。
高速かつ低速な推論モードをシームレスに統合する単一トランスフォーマーモデルであるDualformerを提案する。
論文 参考訳(メタデータ) (2024-10-13T16:53:02Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。