論文の概要: Teaching RL Agents to Act Better: VLM as Action Advisor for Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.21126v1
- Date: Thu, 25 Sep 2025 13:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.925388
- Title: Teaching RL Agents to Act Better: VLM as Action Advisor for Online Reinforcement Learning
- Title(参考訳): RLエージェントの行動改善指導:オンライン強化学習におけるアクションアドバイザとしてのVLM
- Authors: Xiefeng Wu, Jing Zhao, Shu Zhang, Mingyu Hu,
- Abstract要約: 視覚言語アクション(VLA)ポリシーは、多様なタスクを解決するための有望な方向を表す。
我々は、視覚言語モデル(VLM)のドメイン知識を活用するフレームワークであるtextbf VARL(textbfVLM as textbfAction Advisor for online textbfReinforcement textbfL)を提案する。
- 参考スコア(独自算出の注目度): 5.025037011107095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reinforcement learning in complex tasks is time-consuming, as massive interaction steps are needed to learn the optimal Q-function.Vision-language action (VLA) policies represent a promising direction for solving diverse tasks; however, their performance on low-level control remains limited, and effective deployment often requires task-specific expert demonstrations for fine-tuning. In this paper, we propose \textbf{VARL} (\textbf{V}LM as \textbf{A}ction advisor for online \textbf{R}einforcement \textbf{L}earning), a framework that leverages the domain knowledge of vision-language models (VLMs) to provide action suggestions for reinforcement learning agents. Unlike previous methods, VARL provides action suggestions rather than designing heuristic rewards, thereby guaranteeing unchanged optimality and convergence. The suggested actions increase sample diversity and ultimately improve sample efficiency, especially in sparse-reward tasks. To validate the effectiveness of VARL, we evaluate it across diverse environments and agent settings. Results show that VARL greatly improves sample efficiency without introducing significant computational overhead. These advantages make VARL a general framework for online reinforcement learning and make it feasible to directly apply reinforcement learning from scratch in real-world environments.
- Abstract(参考訳): 複雑なタスクにおけるオンライン強化学習は、最適なQ-関数を学習するために大規模なインタラクションステップが必要であるため、時間を要するが、ビジョン言語行動(VLA)ポリシーは多様なタスクを解決するための有望な方向を示している。
本稿では、視覚言語モデル(VLM)のドメイン知識を活用して、強化学習エージェントに対するアクション提案を提供するフレームワークである、オンラインな \textbf{R}einforcement \textbf{L}earning のための \textbf{VARL} (\textbf{V}LM を \textbf{A}ction Advisor として提案する。
従来の方法とは異なり、VARLはヒューリスティックな報酬を設計するよりもアクションの提案を提供しており、したがって最適性と収束性は変わらない。
提案した行動は, サンプルの多様性を高め, 特にスパース・リワードタスクにおいて, 最終的に試料効率を向上する。
VARLの有効性を検証するため,様々な環境やエージェント設定で評価を行った。
その結果, VARLは計算オーバーヘッドを伴わずに, 試料効率を大幅に向上することがわかった。
これらの利点により、VARLはオンライン強化学習の一般的なフレームワークとなり、現実世界の環境で直接強化学習を適用することが可能となる。
関連論文リスト
- Online Process Reward Leanring for Agentic Reinforcement Learning [92.26560379363492]
大規模言語モデル(LLM)は、強化学習(RL)を自律的なエージェントとして訓練されることが増えている。
最近の研究は、プロセスの監視をエージェント学習に統合しようと試みているが、バイアスドアノテーションに悩まされている。
エージェントRLの一般的なクレジットアサインメント戦略であるオンライン・プロセス・リワード・ラーニング(OPRL)を紹介する。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Attention-Augmented Inverse Reinforcement Learning with Graph Convolutions for Multi-Agent Task Allocation [0.29998889086656577]
マルチエージェントタスクアロケーション(MATA)は,協調型マルチエージェントシステムにおいて重要な役割を担う。
報酬関数学習とタスク実行効率を高めるために,逆強化学習(IRL)に基づくフレームワークを提案する。
提案手法が広く用いられているマルチエージェント強化学習(MARL)アルゴリズムよりも優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-07T13:14:45Z) - Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning [38.68600863590734]
変分部分決定強化学習(VSC-RL)という新しい枠組みを提案する。
VSC-RLは、新たな最適化目標であるサブゴールエビデンス・ロウアーバウンド(Subgoal Evidence Lower Bound)を用いて、変分サブゴール条件付きRL問題として決定問題を再構成する。
我々は,VSC-RLが性能保証を損なうことなく,学習効率を効率的に向上できることを理論的かつ実証的に実証した。
論文 参考訳(メタデータ) (2025-02-11T20:57:46Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。