論文の概要: RelayLLM: Efficient Reasoning via Collaborative Decoding
- arxiv url: http://arxiv.org/abs/2601.05167v1
- Date: Thu, 08 Jan 2026 17:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.317746
- Title: RelayLLM: Efficient Reasoning via Collaborative Decoding
- Title(参考訳): RelayLLM: コラボレーションデコーディングによる効率的な推論
- Authors: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang,
- Abstract要約: RelayLLMはトークンレベルのコラボレーティブデコーディングによる効率的な推論のための新しいフレームワークである。
RelayLLM の平均精度は 49.52% であり,両モデル間の性能ギャップを効果的に埋めることを示す。
- 参考スコア(独自算出の注目度): 23.351598429979024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.
- Abstract(参考訳): 複雑な推論のための大規模言語モデル(LLM)は、しばしば高い計算コストと遅延によって妨げられるが、資源効率の低いスモール言語モデル(SLM)は要求される推論能力に欠ける。
カスケードやルーティングといった既存の協調的なアプローチは、全てのクエリをLSMにオフロードすることで粗い粒度で動作し、SLMがほとんどの推論ステップを処理できる場合、計算の浪費が発生する。
これを解決するために,トークンレベルの協調的復号化による効率的な推論のための新しいフレームワークであるRelayLLMを提案する。
ルータとは異なり、RelayLLMはSLMをアクティブコントローラとして動作させ、特別なコマンドを通じてクリティカルトークンのみを動的に起動し、生成プロセスを効果的に「リレー」する。
ウォームアップとグループ相対政策最適化(GRPO)を含む2段階のトレーニングフレームワークを導入する。
6つのベンチマークの実証結果から、RelayLLMは平均49.52%の精度を達成し、2つのモデルのパフォーマンスギャップを効果的に埋めることを示した。
特に、LLMを総生成トークンの1.07%しか呼び出しず、性能が整ったランダムルータに比べて98.2%のコスト削減を実現している。
関連論文リスト
- Leveraging the Power of Large Language Models in Entity Linking via Adaptive Routing and Targeted Reasoning [4.338036373287262]
ARTERは、深い微調整なしで高性能を実現する構造化パイプラインを提供する。
これは、候補生成、コンテキストベースのスコアリング、適応ルーティング、選択推論を戦略的に組み合わせている。
標準ベンチマークでは、ARTERはReFinEDを最大4.47%上回り、6つのデータセットのうち5つで平均2.53%上昇している。
論文 参考訳(メタデータ) (2025-10-23T00:50:14Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - CoLA: Collaborative Low-Rank Adaptation [3.421904493396495]
特定のタスクに対する事前学習モデルの微調整は、高い性能を達成するが、計算的に高価で非効率である。
LoRAは特に有効であることが証明されているが、マルチタスクシナリオへの応用はタスク間の干渉によって制限されている。
我々は、より柔軟なLoRAアーキテクチャと3つの協調戦略であるCoLAを提案し、$A$と$B$の間の量的関係をよりよく活用することでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-21T12:46:42Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文 参考訳(メタデータ) (2023-10-08T05:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。