論文の概要: Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL
- arxiv url: http://arxiv.org/abs/2404.09857v1
- Date: Mon, 15 Apr 2024 15:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:47:37.225082
- Title: Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL
- Title(参考訳): ビジュアルファウンデーションモデルとオフラインRLによる身体的視覚追跡の強化
- Authors: Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen,
- Abstract要約: 身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデル(VFM)とオフライン強化学習(オフラインRL)を組み合わせた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.757030674041037
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor generalization. In this paper, we propose a novel framework that combines visual foundation models (VFM) and offline reinforcement learning (offline RL) to empower embodied visual tracking. We use a pre-trained VFM, such as ``Tracking Anything", to extract semantic segmentation masks with text prompts. We then train a recurrent policy network with offline RL, e.g., Conservative Q-Learning, to learn from the collected demonstrations without online agent-environment interactions. To further improve the robustness and generalization of the policy network, we also introduce a mask re-targeting mechanism and a multi-level data collection strategy. In this way, we can train a robust tracker within an hour on a consumer-level GPU, e.g., Nvidia RTX 3090. Such efficiency is unprecedented for RL-based visual tracking methods. We evaluate our tracker on several high-fidelity environments with challenging situations, such as distraction and occlusion. The results show that our agent outperforms state-of-the-art methods in terms of sample efficiency, robustness to distractors, and generalization to unseen scenarios and targets. We also demonstrate the transferability of the learned tracker from the virtual world to real-world scenarios.
- Abstract(参考訳): 身体的視覚追跡は、エージェントの自我中心の視覚を用いて、ダイナミックな3D環境で対象物を追従することである。
これは、エンボディされたエージェントにとって、不可欠で挑戦的なスキルです。
しかし、既存の手法は非効率な訓練と一般化の欠如に悩まされている。
本稿では,視覚基盤モデル(VFM)とオフライン強化学習(オフラインRL)を組み合わせた新しいフレームワークを提案する。
テキストプロンプトでセマンティックセグメンテーションマスクを抽出するために, '`Tracking Anything' のような事前訓練された VFM を用いる。
次に、オフラインのRL、例えば保守的なQ-Learningでリカレントポリシーネットワークをトレーニングし、オンラインエージェントと環境の相互作用なしに収集された実演から学習する。
また,ポリシーネットワークの堅牢性と一般化をさらに向上するため,マスク再ターゲット機構とマルチレベルデータ収集戦略を導入する。
このようにして、コンシューマレベルのGPU、例えばNvidia RTX 3090で、1時間以内にロバストなトラッカーをトレーニングできます。
このような効率性は、RLベースの視覚追跡手法としては前例がない。
我々は,障害や閉塞などの困難な状況下で,高忠実度環境におけるトラッカーの評価を行った。
その結果, エージェントは, サンプル効率, 邪魔者に対する堅牢性, 目に見えないシナリオやターゲットへの一般化の観点から, 最先端の手法よりも優れていた。
また,学習したトラッカーの仮想世界から実世界のシナリオへの移動可能性を示す。
関連論文リスト
- Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
視覚に基づく自律型ドローンレースにおける強化学習(RL)の有効性とImitation Learning(IL)の有効性を組み合わせる。
本フレームワークは,特権状態情報を用いた教師政策の初期訓練,ILを用いた学生政策への蒸留,適応的RL微調整の3段階からなる。
実環境と実環境の両方でのシミュレーション実験により,我々の手法は,明示的な状態推定を伴わない視覚情報のみを用いて,レースコースを走行する際に,ILやRL単独よりも優れた性能とロバスト性を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Vid2Act: Activate Offline Videos for Visual RL [62.43468793011923]
モデルベースのRL手法であるVid2Actを提案する。
具体的には、ドメイン選択的な知識蒸留損失を用いて、時間変化のあるタスク類似点のセットを生成するよう、世界モデルを訓練する。
本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。