論文の概要: COVR:Collaborative Optimization of VLMs and RL Agent for Visual-Based Control
- arxiv url: http://arxiv.org/abs/2601.06122v1
- Date: Sun, 04 Jan 2026 03:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.591506
- Title: COVR:Collaborative Optimization of VLMs and RL Agent for Visual-Based Control
- Title(参考訳): COVR:視覚制御のためのVLMとRLエージェントの協調最適化
- Authors: Canming Xia, Peixi Peng, Guang Tan, Zhan Su, Haoran Xu, Zhenxian Liu, Luntong Li,
- Abstract要約: 視覚強化学習(RL)は、複雑なタスクにおける高次元観察により、サンプル効率の低下に悩まされる。
我々は,VLMおよびRLポリシーの相互強化を可能にする協調最適化フレームワークであるCOVRを提案する。
- 参考スコア(独自算出の注目度): 37.27710513408952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual reinforcement learning (RL) suffers from poor sample efficiency due to high-dimensional observations in complex tasks. While existing works have shown that vision-language models (VLMs) can assist RL, they often focus on knowledge distillation from the VLM to RL, overlooking the potential of RL-generated interaction data to enhance the VLM. To address this, we propose COVR, a collaborative optimization framework that enables the mutual enhancement of the VLM and RL policies. Specifically, COVR fine-tunes the VLM with RL-generated data to enhance the semantic reasoning ability consistent with the target task, and uses the enhanced VLM to further guide policy learning via action priors. To improve fine-tuning efficiency, we introduce two key modules: (1) an Exploration-Driven Dynamic Filter module that preserves valuable exploration samples using adaptive thresholds based on the degree of exploration, and (2) a Return-Aware Adaptive Loss Weight module that improves the stability of training by quantifying the inconsistency of sampling actions via return signals of RL. We further design a progressive fine-tuning strategy to reduce resource consumption. Extensive experiments show that COVR achieves strong performance across various challenging visual control tasks.
- Abstract(参考訳): 視覚強化学習(RL)は、複雑なタスクにおける高次元観察により、サンプル効率の低下に悩まされる。
既存の研究では、視覚言語モデル(VLM)がRLを補助できることが示されているが、彼らはしばしばVLMからRLへの知識蒸留に焦点を当て、VLMを強化するためにRLが生成する相互作用データの可能性を見越す。
そこで我々は,VLMおよびRLポリシーの相互強化を可能にする協調最適化フレームワークであるCOVRを提案する。
特に、COVRは、ターゲットタスクと整合したセマンティック推論能力を高めるために、RL生成データでVLMを微調整し、強化されたVLMを使用して、アクション前処理によるポリシー学習をさらにガイドする。
微調整効率を向上させるために,(1)探索の度合いに基づく適応しきい値を用いた貴重な探索サンプルを保存する探索駆動動的フィルタモジュール,(2)RLの戻り信号によるサンプリング動作の不整合を定量化してトレーニングの安定性を向上する回帰適応損失重みモジュールの2つの重要なモジュールを導入する。
さらに、資源消費を減らすための段階的な微調整戦略を設計する。
大規模な実験により、COVRは様々な難易度の高い視覚制御タスクで高いパフォーマンスを達成している。
関連論文リスト
- Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning [20.48365890565577]
本稿では,各ステップにおけるトレーニングデータを平均応答長に基づいて動的に選択するメタRLVRアルゴリズムを提案する。
複数のベースモデルとデータセットにまたがるLSPOを評価し,学習効率を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-10-01T20:57:22Z) - From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.51110344832178]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文 参考訳(メタデータ) (2025-08-11T01:26:16Z) - Sample Efficient Reinforcement Learning via Large Vision Language Model Distillation [19.48826538310603]
大規模視覚言語モデル(LVLM)からより効率的な強化学習エージェントへ知識を抽出するフレームワークであるLVLM to Policy(LVLM2P)を紹介する。
提案手法はLVLMを教師として活用し,RLエージェントが収集した軌跡に基づく指導行動を提供する。
LVLM2Pは,ベースラインRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-05-16T13:15:54Z) - RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。
本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-31T04:30:42Z) - Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies [12.599164162404994]
本研究では,Large Language Models(LLMs)の文脈内学習と推論機能を活用した自動報酬生成パラダイムを提案する。
提案するLLM拡張RLパラダイムの実現可能性を評価するため,バス路線数,停留所数,旅客需要数に異なる広範なバス保持制御シナリオに適用した。
論文 参考訳(メタデータ) (2024-10-14T07:10:16Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。