論文の概要: Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.03792v2
- Date: Tue, 03 Jun 2025 12:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.102381
- Title: Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning
- Title(参考訳): ソフト強化学習によるVLMエージェントの効率的なオンラインチューニングに向けて
- Authors: Lang Feng, Weihao Tan, Zhiyi Lyu, Longtao Zheng, Haiyang Xu, Ming Yan, Fei Huang, Bo An,
- Abstract要約: 本稿では,VLMエージェントのテキスト出力空間に適したオンラインファインチューニング手法であるCoSoを提案する。
CoSoはアクションクリティカルトークンの探索を優先し、セマンティックな冗長性や低インパクトトークンの影響を減らす。
弊社の結果は、Androidデバイスコントロール、カードゲーム、エンボディAIなど、さまざまなエージェントタスクにまたがって、探索効率を高め、一貫したパフォーマンス向上を実現するという、目覚ましい能力を強調しています。
- 参考スコア(独自算出の注目度): 45.05706458955535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online fine-tuning vision-language model (VLM) agents with reinforcement learning (RL) has shown promise for equipping agents with multi-step, goal-oriented capabilities in dynamic environments. However, their open-ended textual action space and non-end-to-end nature of action generation present significant challenges to effective online exploration in RL, e.g., explosion of the exploration space. We propose a novel online fine-tuning method, Counterfactual Soft Reinforcement Learning (CoSo), better suited to the textual output space of VLM agents. Compared to prior methods that assign uniform uncertainty to all tokens, CoSo leverages counterfactual reasoning to dynamically assess the causal influence of individual tokens on post-processed actions. By prioritizing the exploration of action-critical tokens while reducing the impact of semantically redundant or low-impact tokens, CoSo enables a more targeted and efficient online rollout process. We provide theoretical analysis proving CoSo's convergence and policy improvement guarantees, and extensive empirical evaluations supporting CoSo's effectiveness. Our results across a diverse set of agent tasks, including Android device control, card gaming, and embodied AI, highlight its remarkable ability to enhance exploration efficiency and deliver consistent performance gains. The code is available at https://github.com/langfengQ/CoSo.
- Abstract(参考訳): 強化学習(RL)を備えたオンライン微調整視覚言語モデル(VLM)エージェントは、動的環境における多段階目標指向能力を持つエージェントの装備を約束している。
しかし、そのオープンエンドなテキスト行動空間と非エンドツーエンドのアクション生成の性質は、RLにおける効果的なオンライン探索、例えば、探索空間の爆発に重大な課題をもたらす。
本稿では,VLMエージェントのテキスト出力空間に適したオンラインファインチューニング手法であるCoSoを提案する。
すべてのトークンに均一な不確実性を割り当てる以前の方法と比較して、CoSoは反ファクト推論を利用して、個々のトークンが後処理のアクションに対して因果的影響を動的に評価する。
アクションクリティカルトークンの探索を優先順位付けし、セマンティックな冗長性や低インパクトなトークンの影響を減らすことで、CoSoはよりターゲットを絞って効率的なオンラインロールアウトプロセスを可能にします。
我々は、CoSoの収束と政策改善の保証を証明する理論的分析と、CoSoの有効性を支持する広範な実証評価を提供する。
弊社の結果は、Androidデバイスコントロール、カードゲーム、エンボディAIなど、さまざまなエージェントタスクにまたがって、探索効率を高め、一貫したパフォーマンス向上を実現するという、目覚ましい能力を強調しています。
コードはhttps://github.com/langfengQ/CoSo.comで入手できる。
関連論文リスト
- Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - RALLY: Role-Adaptive LLM-Driven Yoked Navigation for Agentic UAV Swarms [15.891423894740045]
役割適応型LCM駆動ヨードナビゲーションアルゴリズムをアラリカルに開発する。
RALLYは構造化自然言語を用いて効率的な意味コミュニケーションと協調推論を行う。
実験の結果, タスクカバレッジ, 収束速度, 一般化の点で, 従来手法よりも有意な性能を示した。
論文 参考訳(メタデータ) (2025-07-02T05:44:17Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Reinforcing Language Agents via Policy Optimization with Action Decomposition [36.984163245259936]
本稿では,アクションレベルからトークンレベルへの言語エージェントの最適化を提案する。
次に、アクション内トークンとアクション間トークンの両方に対するクレジット代入を統合するために、アクション分解(BAD)を用いてベルマンバックアップを導出する。
PPOアルゴリズムにおけるBADの実装, 行動分解による政策最適化(POAD)の導入
論文 参考訳(メタデータ) (2024-05-23T14:01:44Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。