論文の概要: Joint Continual Learning of Local Language Models and Cloud Offloading Decisions with Budget Constraints
- arxiv url: http://arxiv.org/abs/2602.00166v2
- Date: Thu, 05 Feb 2026 02:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.821547
- Title: Joint Continual Learning of Local Language Models and Cloud Offloading Decisions with Budget Constraints
- Title(参考訳): 予算制約を伴う局所言語モデルの連立学習とクラウド負荷決定
- Authors: Evan Chen, Wenzhi Fang, Shiqiang Wang, Christopher Brinton,
- Abstract要約: 本稿では,グループ相対政策最適化の二重アドバンテージ拡張であるDA-GRPOを提案する。
クラウド利用の制約を直接計算に組み込んで、固定報酬のシェーピングや外部ルーティングモデルを避ける。
数学的推論とコード生成ベンチマークの実験により、DA-GRPOはスウィッチ後の精度を改善し、忘れを著しく低減し、安定したクラウド利用を維持することが示されている。
- 参考スコア(独自算出の注目度): 13.890405825812065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Locally deployed Small Language Models (SLMs) must continually support diverse tasks under strict memory and computation constraints, making selective reliance on cloud Large Language Models (LLMs) unavoidable. Regulating cloud assistance during continual learning is challenging, as naive reward-based reinforcement learning often yields unstable offloading behavior and exacerbates catastrophic forgetting as task distributions shift. We propose DA-GRPO, a dual-advantage extension of Group Relative Policy Optimization that incorporates cloud-usage constraints directly into advantage computation, avoiding fixed reward shaping and external routing models. This design enables the local model to jointly learn task competence and collaboration behavior, allowing cloud requests to emerge naturally during post-training while respecting a prescribed assistance budget. Experiments on mathematical reasoning and code generation benchmarks show that DA-GRPO improves post-switch accuracy, substantially reduces forgetting, and maintains stable cloud usage compared to prior collaborative and routing-based approaches.
- Abstract(参考訳): ローカルにデプロイされたSLM(Small Language Models)は、厳密なメモリと計算制約の下で、さまざまなタスクを継続的にサポートしなければなりません。
直感的な報酬に基づく強化学習は不安定なオフロード動作をもたらし、タスク分布がシフトするにつれて破滅的な忘れを悪化させるため、継続的学習におけるクラウドアシストの規制は困難である。
DA-GRPOはグループ相対政策最適化の二重アドバンテージ拡張であり,クラウド利用制約を直接計算に組み込んで,固定報酬形成や外部ルーティングモデルを回避する。
この設計により、ローカルモデルは、タスク能力と協調動作を共同で学習し、所定の支援予算を尊重しながら、訓練後自然にクラウド要求を発生させることができる。
数学的推論とコード生成ベンチマークの実験により、DA-GRPOはスウィッチ後の精度を向上し、忘れを著しく低減し、以前のコラボレーティブおよびルーティングベースのアプローチと比較して安定したクラウド使用率を維持することが示されている。
関連論文リスト
- Diffusion-Based Solver for CNF Placement on the Cloud-Continuum [1.529342790344802]
CNF配置の拡散確率モデル(DDPM)に基づく新しい理論的枠組みが提案されている。
このモデルは、損失関数に直接制約固有の損失を組み込むことで、実現可能な解空間を学習することができる。
その結果,ネットワーク埋め込み問題に対する拡散型生成モデルの可能性が示された。
論文 参考訳(メタデータ) (2025-11-03T08:47:58Z) - Collaborative Device-Cloud LLM Inference through Reinforcement Learning [17.71514700623717]
デバイスとクラウドのコラボレーションは、大きな言語モデル(LLM)をデプロイするための有望なパラダイムとして登場した。
本稿では,デバイス上でのLCMが問題解決プロセスの最後にルーティング決定を行うフレームワークを提案する。
特に、効果的な問題解決とクラウドへの司法的オフロードを促進するために、慎重に設計された報酬で報酬問題を定式化する。
論文 参考訳(メタデータ) (2025-09-28T19:48:56Z) - Cloud-Device Collaborative Agents for Sequential Recommendation [36.05863003744828]
大規模言語モデル(LLM)は、強力な意味理解と柔軟な推論機能を備えたエージェントベースのレコメンデーションシステムを実現している。
LLMは強力なパーソナライズを提供するが、プライバシの懸念やリアルタイム信号へのアクセス制限、スケーラビリティのボトルネックに悩まされることが多い。
本稿では,2つのエージェントを駆使したシーケンシャルレコメンデーションのための新しいクラウド・デバイス協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:11Z) - LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文 参考訳(メタデータ) (2025-07-21T16:14:41Z) - Edge-First Language Model Inference: Models, Metrics, and Tradeoffs [0.7980273012483663]
本研究は、単一エッジデバイス上でのSLM機能の詳細なベンチマークから始まる、エッジとクラウドのデプロイメント間の相互作用について検討する。
エッジ推論が低コストで同等のパフォーマンスを提供するシナリオや、スケーラビリティやモデルキャパシティの制限によりクラウドのフォールバックが不可欠になるシナリオを特定します。
プラットフォームレベルの比較と設計の洞察を,一様かつ適応的なLM推論システム構築のために提案する。
論文 参考訳(メタデータ) (2025-05-22T10:43:00Z) - Opportunistic Collaborative Planning with Large Vision Model Guided Control and Joint Query-Service Optimization [74.92515821144484]
オープンなシナリオで自動運転車をナビゲートすることは、目に見えない物体を扱うのが難しいため、課題である。
既存のソリューションは、一般化に苦しむ小さなモデルか、リソース集約的な大きなモデルに依存している。
本稿では,効率的なローカルモデルと強力なクラウドモデルをシームレスに統合するオポチュニティ協調計画(OCP)を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:07:21Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Quantized Embedding Vectors for Controllable Diffusion Language Models [1.3287140837287783]
Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
論文 参考訳(メタデータ) (2024-02-15T17:02:48Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。