論文の概要: Digi-Q: Learning Q-Value Functions for Training Device-Control Agents
- arxiv url: http://arxiv.org/abs/2502.15760v1
- Date: Thu, 13 Feb 2025 18:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:51:31.448291
- Title: Digi-Q: Learning Q-Value Functions for Training Device-Control Agents
- Title(参考訳): Digi-Q: デバイス制御エージェントのトレーニングのためのQ値関数の学習
- Authors: Hao Bai, Yifei Zhou, Li Erran Li, Sergey Levine, Aviral Kumar,
- Abstract要約: Digi-QはVLMベースのアクション値Q関数を訓練し、エージェントポリシーを抽出する。
Digi-Qは、Android-in-the-Wildのユーザスケールデバイス制御タスクにおいて、いくつかの従来手法より優れている。
- 参考スコア(独自算出の注目度): 73.60512136881279
- License:
- Abstract: While a number of existing approaches for building foundation model agents rely on prompting or fine-tuning with human demonstrations, it is not sufficient in dynamic environments (e.g., mobile device control). On-policy reinforcement learning (RL) should address these limitations, but collecting actual rollouts in an environment is often undesirable in truly open-ended agentic problems such as mobile device control or interacting with humans, where each unit of interaction is associated with a cost. In such scenarios, a method for policy learning that can utilize off-policy experience by learning a trained action-value function is much more effective. In this paper, we develop an approach, called Digi-Q, to train VLM-based action-value Q-functions which are then used to extract the agent policy. We study our approach in the mobile device control setting. Digi-Q trains the Q-function using offline temporal-difference (TD) learning, on top of frozen, intermediate-layer features of a VLM. Compared to fine-tuning the whole VLM, this approach saves us compute and enhances scalability. To make the VLM features amenable for representing the Q-function, we need to employ an initial phase of fine-tuning to amplify coverage over actionable information needed for value function. Once trained, we use this Q-function via a Best-of-N policy extraction operator that imitates the best action out of multiple candidate actions from the current policy as ranked by the value function, enabling policy improvement without environment interaction. Digi-Q outperforms several prior methods on user-scale device control tasks in Android-in-the-Wild, attaining 21.2% improvement over prior best-performing method. In some cases, our Digi-Q approach already matches state-of-the-art RL methods that require interaction. The project is open-sourced at https://github.com/DigiRL-agent/digiq
- Abstract(参考訳): ファウンデーションモデルエージェントを構築するための既存のアプローチは、人間のデモンストレーションの促進や微調整に頼っているが、動的環境(モバイルデバイス制御など)では不十分である。
オンライン強化学習(RL)はこれらの制限に対処する必要があるが、実際のロールアウトの収集は、モバイルデバイスの制御や人間との対話といった真にオープンなエージェント問題では望ましくない。
このようなシナリオでは、訓練された行動価値関数を学習することで、政治以外の経験を活用できる政策学習の方がはるかに効果的である。
本稿では,VLMに基づくアクション値Q関数を学習し,エージェントポリシーを抽出する手法であるDigi-Qを開発した。
モバイル機器制御設定におけるアプローチについて検討する。
Digi-Qは、VLMの凍結した中間層の特徴の上に、オフライン時間差分学習(TD)を用いてQ関数を訓練する。
VLM全体を微調整するのと比べて、このアプローチは計算を節約し、スケーラビリティを向上します。
VLM機能をQ-関数を表現するために、我々は、値関数に必要な実行可能な情報に対するカバレッジを増幅するために、ファインチューニングの初期段階を利用する必要がある。
一度学習すると、このQ関数をBest-of-Nポリシー抽出演算子を介して使用し、これは、現在のポリシーから複数の候補アクションの中から最良のアクションを模倣し、環境の相互作用なしにポリシーの改善を可能にする。
Digi-Qは、Android-in-the-Wildのユーザスケールデバイス制御タスクにおいて、以前のベストパフォーマンスメソッドよりも21.2%改善されている。
場合によっては、Digi-Qアプローチは相互作用を必要とする最先端のRL手法とすでに一致しています。
プロジェクトはhttps://github.com/DigiRL-agent/digiqで公開されている。
関連論文リスト
- Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions [18.643104368680593]
強化学習では、DDPGやTD3のような非政治的アクター批判的アプローチは決定論的政策勾配に基づいている。
i) 複数のアクターを用いてQ値の最大化動作を評価すること,(ii)勾配法で最適化し易いQ値関数を学習すること,の2つの単純な知見を組み合わせた新しいアクタアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-15T17:58:03Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Q-Transformer: Scalable Offline Reinforcement Learning via
Autoregressive Q-Functions [143.89572689302497]
大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。
本手法は,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現を実現するためにTransformerを用いている。
そこで本研究では,Q-Transformerが,多種多様な実世界のロボット操作タスクスイート上で,事前のオフラインRLアルゴリズムと模倣学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-18T21:00:38Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。