論文の概要: Collaborative Device-Cloud LLM Inference through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.24050v1
- Date: Sun, 28 Sep 2025 19:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.609486
- Title: Collaborative Device-Cloud LLM Inference through Reinforcement Learning
- Title(参考訳): 強化学習による協調型デバイスクラウドLLM推論
- Authors: Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Christopher Brinton,
- Abstract要約: デバイスとクラウドのコラボレーションは、大きな言語モデル(LLM)をデプロイするための有望なパラダイムとして登場した。
本稿では,デバイス上でのLCMが問題解決プロセスの最後にルーティング決定を行うフレームワークを提案する。
特に、効果的な問題解決とクラウドへの司法的オフロードを促進するために、慎重に設計された報酬で報酬問題を定式化する。
- 参考スコア(独自算出の注目度): 17.71514700623717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Device-cloud collaboration has emerged as a promising paradigm for deploying large language models (LLMs), combining the efficiency of lightweight on-device inference with the superior performance of powerful cloud LLMs. An essential problem in this scenario lies in deciding whether a given query is best handled locally or delegated to the cloud. Existing approaches typically rely on external routers, implemented as binary classifiers, which often struggle to determine task difficulty from the prompt's surface pattern. To address these limitations, we propose a framework where the on-device LLM makes routing decisions at the end of its solving process, with this capability instilled through post-training. In particular, we formulate a reward maximization problem with carefully designed rewards that encourage effective problem solving and judicious offloading to the cloud. To solve this problem, we develop a group-adaptive policy gradient algorithm, featuring a group-level policy gradient, designed to yield an unbiased gradient estimator of the reward, and adaptive prompt filtering, developed to enforce the constraint on cloud LLM usage. Extensive experiments across models and benchmarks show that the proposed methodology consistently outperforms existing baselines and significantly narrows the gap to full cloud LLM performance.
- Abstract(参考訳): デバイスとクラウドのコラボレーションは、大規模言語モデル(LLM)をデプロイするための有望なパラダイムとして現れ、軽量なオンデバイス推論の効率と強力なクラウドLLMの優れたパフォーマンスを組み合わせた。
このシナリオにおける重要な問題は、あるクエリがローカルで処理されるか、クラウドに委譲されるかを決定することである。
既存のアプローチは通常、バイナリ分類器として実装された外部ルータに依存しており、プロンプトの表面パターンからタスクの難易度を決定するのに苦労することが多い。
これらの制約に対処するため,デバイス上でのLCMが処理プロセスの終了時にルーティング決定を行うフレームワークを提案する。
特に、効果的な問題解決とクラウドへの司法的オフロードを促進するために、慎重に設計された報酬で報酬の最大化問題を定式化する。
この問題を解決するために,グループレベルポリシー勾配を特徴とするグループ適応型ポリシー勾配アルゴリズムを開発し,報酬の偏りのない勾配推定器と適応型プロンプトフィルタを開発し,クラウドLLM利用の制約を強制する。
モデルとベンチマークの広範な実験により、提案手法は既存のベースラインを一貫して上回り、完全なクラウドLLMパフォーマンスとのギャップを著しく狭めていることが示された。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。
LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。
本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning [36.37717583840935]
本研究では,大規模クラウドベースLLMと小規模ローカルデプロイLLMの協調運用を容易にする新しいLCM利用パラダイムを提案する。
本フレームワークは,比較的小型のLLMをインスタンス化したローカルエージェントと,大型のLLMを搭載したクラウドエージェントの2つの主要モジュールから構成される。
この協調処理は、ローカルエージェントがエラーを内観的に識別し、クラウドエージェントから積極的に支援を求める適応機構によって実現される。
論文 参考訳(メタデータ) (2024-10-17T03:07:37Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。
より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。
本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文 参考訳(メタデータ) (2024-09-15T15:12:45Z) - Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach [18.153641696306707]
本研究では、モデルベース強化学習(MBRL)からインスピレーションを得て、エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。
報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。
論文 参考訳(メタデータ) (2024-06-03T09:41:42Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。