論文の概要: Hera: Learning Long-Horizon Coordination for Device-Cloud Collaborative LLM Agents
- arxiv url: http://arxiv.org/abs/2605.24598v1
- Date: Sat, 23 May 2026 14:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.266216
- Title: Hera: Learning Long-Horizon Coordination for Device-Cloud Collaborative LLM Agents
- Title(参考訳): Hera: デバイスクラウド協調LDMエージェントの長距離協調学習
- Authors: Yuxin Zhang, Mengxue Hu, Zheng Lin, Xiaoyi Fan, Fan Xie, Zihan Fang, Jing Yang, Wenjun Zhu, Zhiwen Chen, Chengfei Lv, Zhe Chen,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、環境との自律的な相互作用を通じて複雑な長距離タスクを解決するのに優れている。
オンデバイスモデルは効率的だが、しばしば脆いが、クラウドモデルはより強力だが、ルータではコストがかかる。
この問題に対処するために,ステップレベルのデバイス-クラウド LLM エージェントコーディネータである Hera を紹介した。
- 参考スコア(独自算出の注目度): 26.006713476565263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents excel at solving complex long-horizon tasks through autonomous interaction with environments. However, their real-world deployment faces a fundamental device--cloud dilemma: on-device models are efficient but often brittle, while cloud models are stronger but costly in computation. State-of-the-art LLM device--cloud routers usually make coarse task-level decisions, which cannot adapt to the changing difficulty of multi-step agent interactions. To address this issue, we present Hera, a step-level device--cloud LLM agent coordinator for long-horizon tasks achieving a strong performance--cost Pareto frontier. Hera adopts a novel two-stage training paradigm: (1) imitation learning for cold-start, followed by (2) reinforcement learning that jointly optimizes task success and cloud usage efficiency. The first stage casts step-level routing as a supervised classification problem: the device agent is replayed on cloud trajectories, with each state labeled by the agreement between device and cloud actions. In the second stage, we perform cost-aware reinforcement learning by grouping identical states across trajectories and updating Hera with labels favoring higher expected return and fewer future cloud calls. We evaluate Hera on ALFWorld, WebShop, and AppWorld, where it consistently outperforms prior methods, achieving 92.5% of the cloud-only success rate with cloud use in only 46.3% of steps.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、環境との自律的な相互作用を通じて複雑な長距離タスクを解決するのに優れている。
オンデバイスモデルは効率的ですが、しばしば脆くなりますが、クラウドモデルはより強力ですが、計算にはコストがかかります。
最先端のLLMデバイス-クラウドルータは、通常、粗いタスクレベルの決定を行うが、マルチステップエージェントのインタラクションの困難さに適応できない。
この問題に対処するため,我々は,高コストのパレートフロンティアを実現する,長期作業のためのステップレベルのデバイスクラウドLLMエージェントコーディネータであるHeraを紹介する。
Heraは,(1)コールドスタートのための模倣学習,(2)タスク成功とクラウド利用効率を協調的に最適化する強化学習という,新しい2段階トレーニングパラダイムを採用している。
デバイスエージェントはクラウドの軌跡上で再生され、各状態はデバイスとクラウドのアクションの合意によってラベル付けされる。
第2段階では,同一状態をトラジェクトリにグループ化して,より高いリターンと将来的なクラウドコールの少ないラベルでHeraを更新することで,費用対効果の強化学習を行う。
ALFWorld、WebShop、AppWorldでHeraを評価し、それまでの手法を一貫して上回り、クラウドのみの成功率の92.5%を、わずか46.3%のステップで達成しました。
関連論文リスト
- LightAgent: Mobile Agentic Foundation Models [8.847692192802343]
本稿では,デバイスとクラウドのコラボレーションを活用して,デバイス上でのモデルのコスト効率とクラウドモデルの高機能化を実現するモバイルエージェントモデルソリューションを提案する。
具体的には、強力な意思決定のための合成GUIデータの2段階SFT->GRPOトレーニングにより、Qwen2.5-VL-3Bを強化する。
オンラインのAndroidLabベンチマークと多様なアプリの実験では、LightAgentのマッチや、より大きなモデルに近いものがあり、クラウドコストは大幅に削減されている。
論文 参考訳(メタデータ) (2025-10-24T20:23:12Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - UniMix: Towards Domain Adaptive and Generalizable LiDAR Semantic Segmentation in Adverse Weather [55.95708988160047]
LiDARセマンティックセグメンテーション(LSS)は自動運転において重要な課題である。
事前のLSS法は、晴れた天候下で同じ領域内のデータセットを調査・評価した。
LSSモデルの適応性と一般化性を高める普遍的手法UniMixを提案する。
論文 参考訳(メタデータ) (2024-04-08T02:02:15Z) - PMAA: A Progressive Multi-scale Attention Autoencoder Model for
High-performance Cloud Removal from Multi-temporal Satellite Imagery [26.694734522423797]
本研究では,PMAA(Progressive Multi-scale Attention Autoencoder)と呼ばれる高性能クラウド除去アーキテクチャを提案する。
PMAAはグローバルおよびローカル情報を利用して、新しいマルチスケールアテンションモジュール(MAM)と新しいローカルインタラクションモジュール(LIM)を使用して、堅牢なコンテキスト依存を構築する
PMAAは、以前の最先端モデルCTGANを2つのベンチマークデータセットで一貫して上回っている。
論文 参考訳(メタデータ) (2023-03-29T09:47:48Z) - Hierarchical Training of Deep Neural Networks Using Early Exiting [42.186536611404165]
深層ニューラルネットワークは、ビジョンタスクに最先端の精度を提供するが、トレーニングにはかなりのリソースを必要とする。
ディープニューラルネットワークは、データを取得するエッジデバイスから遠く離れたクラウドサーバでトレーニングされる。
本研究では,エッジワーカとクラウドワーカの分割アーキテクチャにおける早期出口を用いた,深層ニューラルネットワークの階層的学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-04T11:30:16Z) - Cloud-Device Collaborative Adaptation to Continual Changing Environments
in the Real-world [20.547119604004774]
本稿では,クラウドとデバイス間の協調を促進するクラウドデバイス協調型継続的適応の新たな学習パラダイムを提案する。
また、クラウド上の大規模モデルの一般化能力をデバイスモデルに転送するための教師学生モデルとして、不確実性に基づくVisual Prompt Adapted (U-VPA)を提案する。
提案するU-VPA教師学生フレームワークは,従来の最先端テスト時間適応とデバイスクラウド協調手法より優れていた。
論文 参考訳(メタデータ) (2022-12-02T05:02:36Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - Cloud Collectives: Towards Cloud-aware Collectives forML Workloads with
Rank Reordering [8.81194405760133]
Cloud Collectivesは、参加するフレームワークの並べ替えによって集合を加速するプロトタイプである。
Collectivesは非侵襲的であり、コードの変更も既存のアプリケーションの再構築も必要とせず、クラウドプロバイダのサポートなしで動作します。
パブリッククラウドでのアレーダ操作に対するCloud Collectivesの予備的な応用は、複数のマイクロベンチマークで最大3.7倍、実際のワークロードで1.3倍のスピードアップをもたらす。
論文 参考訳(メタデータ) (2021-05-28T20:14:38Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。