論文の概要: Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.03792v1
- Date: Thu, 01 May 2025 14:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.811695
- Title: Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning
- Title(参考訳): ソフト強化学習によるVLMエージェントの効率的なオンラインチューニングに向けて
- Authors: Lang Feng, Weihao Tan, Zhiyi Lyu, Longtao Zheng, Haiyang Xu, Ming Yan, Fei Huang, Bo An,
- Abstract要約: 本稿では,VLMエージェントのテキスト出力空間に適したオンラインファインチューニング手法であるCoSoを提案する。
CoSoはアクションクリティカルトークンの探索を優先し、セマンティックな冗長性や低インパクトトークンの影響を減らす。
弊社の結果は、Androidデバイスコントロール、カードゲーム、エンボディAIなど、さまざまなエージェントタスクにまたがって、探索効率を高め、一貫したパフォーマンス向上を実現するという、目覚ましい能力を強調しています。
- 参考スコア(独自算出の注目度): 45.05706458955535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online fine-tuning vision-language model (VLM) agents with reinforcement learning (RL) has shown promise for equipping agents with multi-step, goal-oriented capabilities in dynamic environments. However, their open-ended textual action space and non-end-to-end nature of action generation present significant challenges to effective online exploration in RL, e.g., explosion of the exploration space. We propose a novel online fine-tuning method, Counterfactual Soft Reinforcement Learning (CoSo), better suited to the textual output space of VLM agents. Compared to prior methods that assign uniform uncertainty to all tokens, CoSo leverages counterfactual reasoning to dynamically assess the causal influence of individual tokens on post-processed actions. By prioritizing the exploration of action-critical tokens while reducing the impact of semantically redundant or low-impact tokens, CoSo enables a more targeted and efficient online rollout process. We provide theoretical analysis proving CoSo's convergence and policy improvement guarantees, and extensive empirical evaluations supporting CoSo's effectiveness. Our results across a diverse set of agent tasks, including Android device control, card gaming, and embodied AI, highlight its remarkable ability to enhance exploration efficiency and deliver consistent performance gains. The code is available at https://github.com/langfengQ/CoSo.
- Abstract(参考訳): 強化学習(RL)を備えたオンライン微調整視覚言語モデル(VLM)エージェントは、動的環境における多段階目標指向能力を持つエージェントの装備を約束している。
しかし、そのオープンエンドなテキスト行動空間と非エンドツーエンドのアクション生成の性質は、RLにおける効果的なオンライン探索、例えば、探索空間の爆発に重大な課題をもたらす。
本稿では,VLMエージェントのテキスト出力空間に適したオンラインファインチューニング手法であるCoSoを提案する。
すべてのトークンに均一な不確実性を割り当てる以前の方法と比較して、CoSoは反ファクト推論を利用して、個々のトークンが後処理のアクションに対して因果的影響を動的に評価する。
アクションクリティカルトークンの探索を優先順位付けし、セマンティックな冗長性や低インパクトなトークンの影響を減らすことで、CoSoはよりターゲットを絞って効率的なオンラインロールアウトプロセスを可能にします。
我々は、CoSoの収束と政策改善の保証を証明する理論的分析と、CoSoの有効性を支持する広範な実証評価を提供する。
弊社の結果は、Androidデバイスコントロール、カードゲーム、エンボディAIなど、さまざまなエージェントタスクにまたがって、探索効率を高め、一貫したパフォーマンス向上を実現するという、目覚ましい能力を強調しています。
コードはhttps://github.com/langfengQ/CoSo.comで入手できる。
関連論文リスト
- Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Reinforcing Language Agents via Policy Optimization with Action Decomposition [36.984163245259936]
本稿では,アクションレベルからトークンレベルへの言語エージェントの最適化を提案する。
次に、アクション内トークンとアクション間トークンの両方に対するクレジット代入を統合するために、アクション分解(BAD)を用いてベルマンバックアップを導出する。
PPOアルゴリズムにおけるBADの実装, 行動分解による政策最適化(POAD)の導入
論文 参考訳(メタデータ) (2024-05-23T14:01:44Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。