Fugu-MT 論文翻訳(概要): DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents

論文の概要: DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents

arxiv url: http://arxiv.org/abs/2410.14803v3
Date: Tue, 12 Nov 2024 14:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.71373
Title: DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents
Title（参考訳）: DistRL:オンデバイス制御エージェントのための非同期分散強化学習フレームワーク
Authors: Taiyi Wang, Zhihao Wu, Jianheng Liu, Jianye Hao, Jun Wang, Kun Shao,
Abstract要約: DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
参考スコア（独自算出の注目度）: 38.0441002097771
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: On-device control agents, especially on mobile devices, are responsible for operating mobile devices to fulfill users' requests, enabling seamless and intuitive interactions. Integrating Multimodal Large Language Models (MLLMs) into these agents enhances their ability to understand and execute complex commands, thereby improving user experience. However, fine-tuning MLLMs for on-device control presents significant challenges due to limited data availability and inefficient online training processes. This paper introduces DistRL, a novel framework designed to enhance the efficiency of online RL fine-tuning for mobile device control agents. DistRL employs centralized training and decentralized data acquisition to ensure efficient fine-tuning in the context of dynamic online interactions. Additionally, the framework is backed by our tailor-made RL algorithm, which effectively balances exploration with the prioritized utilization of collected data to ensure stable and robust training. Our experiments show that, on average, DistRL delivers a 3X improvement in training efficiency and enables training data collection 2.4X faster than the leading synchronous multi-machine methods. Notably, after training, DistRL achieves a 20% relative improvement in success rate compared to state-of-the-art methods on general Android tasks from an open benchmark, significantly outperforming existing approaches while maintaining the same training time. These results validate DistRL as a scalable and efficient solution, offering substantial improvements in both training efficiency and agent performance for real-world, in-the-wild device control tasks.
Abstract（参考訳）: デバイス上のコントロールエージェント、特にモバイルデバイスでは、ユーザの要求を満たすためにモバイルデバイスを操作する責任があり、シームレスで直感的な対話を可能にする。これらのエージェントにMLLM(Multimodal Large Language Models)を統合することで、複雑なコマンドを理解し実行することができるようになり、ユーザエクスペリエンスが向上する。しかし、オンデバイス制御のための微調整MLLMは、データ可用性の制限と非効率なオンライントレーニングプロセスのために大きな課題を呈している。本稿では,モバイル機器制御エージェントのオンラインRLファインチューニングの効率化を目的とした新しいフレームワークであるDistRLを紹介する。 DistRLは、動的オンラインインタラクションのコンテキストにおける効率的な微調整を確保するために、集中的なトレーニングと分散データ取得を採用している。さらに、このフレームワークは我々のリテーラーメイドのRLアルゴリズムによって支援されており、このアルゴリズムは、安定した堅牢なトレーニングを確保するために、収集データの優先順位付けされた利用と探索のバランスを効果的に保っている。実験の結果、DistRLはトレーニング効率を平均3倍改善し、主要な同期マルチマシン手法よりも2.4倍高速なトレーニングデータ収集を可能にした。特に、トレーニング後のDistRLは、オープンベンチマークによる一般的なAndroidタスクの最先端メソッドと比較して、20%の相対的な成功率向上を実現し、トレーニング時間を維持しながら、既存のアプローチよりも大幅に優れています。これらの結果は、DistRLをスケーラブルで効率的なソリューションとして評価し、実世界のデバイス制御タスクにおいて、トレーニング効率とエージェントパフォーマンスの両方を大幅に改善する。

関連論文リスト

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文参考訳（メタデータ） (2025-08-07T17:53:47Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。 ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2025-02-01T03:04:53Z)
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。 VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文参考訳（メタデータ） (2024-06-14T17:49:55Z)
M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。 Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-01-30T14:09:35Z)
Grow Your Limits: Continuous Improvement with Real-World RL for Robotic Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。 APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文参考訳（メタデータ） (2023-10-26T17:51:46Z)
Transfer of Reinforcement Learning-Based Controllers from Model- to Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文参考訳（メタデータ） (2023-10-25T09:13:12Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Digital Twin Assisted Deep Reinforcement Learning for Online Admission Control in Sliced Network [19.152875040151976]
この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。 DT加速DRLは、直接訓練された最先端Q-ラーニングモデルと比較して、リソース利用率を40%以上向上させる。
論文参考訳（メタデータ） (2023-10-07T09:09:19Z)
A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文参考訳（メタデータ） (2023-09-13T13:18:29Z)
Train a Real-world Local Path Planner in One Hour via Partially Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文参考訳（メタデータ） (2023-05-07T03:39:31Z)
DL-DRL: A double-level deep reinforcement learning approach for large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文参考訳（メタデータ） (2022-08-04T04:35:53Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。