論文の概要: Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.07949v2
- Date: Tue, 20 May 2025 19:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.518393
- Title: Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning
- Title(参考訳): 変分重畳み込み強化学習による自律型VLMエージェントの強化
- Authors: Qingyuan Wu, Jianheng Liu, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: 変分部分決定強化学習(VSC-RL)という新しい枠組みを提案する。
VSC-RLは、新たな最適化目標であるサブゴールエビデンス・ロウアーバウンド(Subgoal Evidence Lower Bound)を用いて、変分サブゴール条件付きRL問題として決定問題を再構成する。
我々は,VSC-RLが性能保証を損なうことなく,学習効率を効率的に向上できることを理論的かつ実証的に実証した。
- 参考スコア(独自算出の注目度): 38.68600863590734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art (SOTA) reinforcement learning (RL) methods have enabled vision-language model (VLM) agents to learn from interaction with online environments without human supervision. However, these methods often struggle with learning inefficiencies when applied to complex, real-world decision-making tasks with sparse rewards and long-horizon dependencies. We propose a novel framework, Variational Subgoal-Conditioned Reinforcement Learning (VSC-RL), advancing the VLM agents in resolving challenging decision-making tasks. Fundamentally distinct from existing methods, VSC-RL reformulates the decision-making problem as a variational subgoal-conditioned RL problem with the newly derived optimization objective, Subgoal Evidence Lower BOund (SGC-ELBO), which comprises two key components: (a) maximizing the subgoal-conditioned return, and (b) minimizing the divergence from a reference goal-conditioned policy. We theoretically and empirically demonstrate that the VSC-RL can efficiently improve the learning efficiency without compromising performance guarantees. Across a diverse set of challenging benchmarks, including mobile device and web control tasks, VSC-RL consistently outperforms existing SOTA methods, achieving superior learning efficiency and performance.
- Abstract(参考訳): 最先端(SOTA)強化学習(RL)手法により、人間の監督なしに視覚言語モデル(VLM)エージェントがオンライン環境とのインタラクションから学習できるようになった。
しかしながら、これらの手法は、疎い報酬と長い水平依存を伴う複雑な現実世界の意思決定タスクに適用した場合、非効率な学習に苦慮することが多い。
本稿では,VSC-RL(変分部分決定強化学習)という新たなフレームワークを提案する。
従来の方法とは根本的に異なり、VSC-RLは、新たな最適化目標であるSGC-ELBO(Subgoal Evidence Lower Bound)を用いて、変分サブゴール条件付きRL問題として決定問題を再構成する。
(a)サブゴール条件付き戻り値の最大化、及び
b)基準目標条件ポリシからの分岐を最小限にすること。
我々は,VSC-RLが性能保証を損なうことなく,学習効率を効率的に向上できることを理論的かつ実証的に実証した。
VSC-RLはモバイルデバイスやWebコントロールタスクなど、さまざまな困難なベンチマークのセットの中で、既存のSOTAメソッドを一貫して上回り、学習効率とパフォーマンスの向上を実現している。
関連論文リスト
- XPG-RL: Reinforcement Learning with Explainable Priority Guidance for Efficiency-Boosted Mechanical Search [0.10241134756773229]
エージェントが機械的な探索タスクを効率的に実行できる強化学習フレームワークXPG-RLを紹介する。
XPG-RLはタスク駆動型アクション優先順位付け機構と学習コンテキスト対応スイッチング戦略を統合する。
XPG-RLはタスク成功率と動作効率において、ベースライン法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-04-29T17:37:45Z) - Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies [12.599164162404994]
本研究では,Large Language Models(LLMs)の文脈内学習と推論機能を活用した自動報酬生成パラダイムを提案する。
提案するLLM拡張RLパラダイムの実現可能性を評価するため,合成単線システムや実世界の多線システムなど,様々なバス保持制御シナリオに適用した。
論文 参考訳(メタデータ) (2024-10-14T07:10:16Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Variational Curriculum Reinforcement Learning for Unsupervised Discovery
of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。
規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。
また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-30T10:34:25Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。