論文の概要: Dynamic Mix Precision Routing for Efficient Multi-step LLM Interaction
- arxiv url: http://arxiv.org/abs/2602.02711v1
- Date: Mon, 02 Feb 2026 19:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.030643
- Title: Dynamic Mix Precision Routing for Efficient Multi-step LLM Interaction
- Title(参考訳): 効率的な多段LDM相互作用のための動的混合精度ルーティング
- Authors: Yuanzhe Li, Jianing Deng, Jingtong Hu, Tianlong Chen, Song Wang, Huanrui Yang,
- Abstract要約: 大規模言語モデル(LLM)は、多段階の相互作用とテスト時の推論を通じて、長期の意思決定タスクにおいて高い性能を達成する。
本稿では,各決定ステップにおいて,高精度と低精度のLLMを適応的に選択する動的混合精度ルーティングフレームワークを提案する。
ALFWorldの実験により,本手法は単一精度ベースラインとルーティング手法よりも精度の高いトレードオフを実現することが実証された。
- 参考スコア(独自算出の注目度): 42.64731507868289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) achieve strong performance in long-horizon decision-making tasks through multi-step interaction and reasoning at test time. While practitioners commonly believe a higher task success rate necessitates the use of a larger and stronger LLM model, multi-step interaction with a large LLM incurs prohibitive inference cost. To address this problem, we explore the use of low-precision quantized LLM in the long-horizon decision-making process. Based on the observation of diverse sensitivities among interaction steps, we propose a dynamic mix-precision routing framework that adaptively selects between high-precision and low-precision LLMs at each decision step. The router is trained via a two-stage pipeline, consisting of KL-divergence-based supervised learning that identifies precision-sensitive steps, followed by Group-Relative Policy Optimization (GRPO) to further improve task success rates. Experiments on ALFWorld demonstrate that our approach achieves a great improvement on accuracy-cost trade-off over single-precision baselines and heuristic routing methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多段階の相互作用とテスト時の推論を通じて、長期の意思決定タスクにおいて高い性能を達成する。
実践者は一般的に、より高いタスク成功率がより大きなLLMモデルを使用する必要があると信じているが、大規模なLLMとのマルチステップ相互作用は、推論コストを禁止している。
この問題に対処するために,長距離意思決定プロセスにおける低精度量子化LDMの利用について検討する。
インタラクションステップ間の多様な感度の観測に基づいて,各ステップで高精度と低精度のLCMを適応的に選択する動的混合精度ルーティングフレームワークを提案する。
ルータは2段階のパイプラインで訓練され、KL分割に基づく教師あり学習により精度の高いステップを識別し、さらにグループ相対ポリシー最適化(GRPO)によってタスクの成功率をさらに向上する。
ALFWorldの実験により,本手法は単一精度ベースラインとヒューリスティックルーティング手法よりも高精度なトレードオフを実現することが実証された。
関連論文リスト
- Task-Aware LLM Council with Adaptive Decision Pathways for Decision Support [6.468209380404613]
Task-Aware LLM Council (TALC) はモンテカルロ木探索 (MCTS) と大規模言語モデルのカウンシルを統合している。
TALCは、強いベースラインよりも優れたタスク成功率と検索効率の向上を実現している。
論文 参考訳(メタデータ) (2026-01-30T07:29:20Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design [35.544075583073685]
マルチターンRLアルゴリズムとエージェント応用のためのテキストターンレベルの報酬設計に関する最初の体系的研究について述べる。
我々は、多ターン推論強化検索エージェントのケーススタディを行い、検証可能とLCM-as-judgeの2種類のターンレベルの報酬を慎重に設計する。
マルチターン探索タスクの実験により、適切に設計されたターンレベルの報酬を組み込むことで、RLアルゴリズムは軌道レベルの報酬でベースライン法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。
提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。
提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文 参考訳(メタデータ) (2025-02-04T22:09:43Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。