Fugu-MT 論文翻訳(概要): Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL

論文の概要: Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL

arxiv url: http://arxiv.org/abs/2404.09857v2
Date: Mon, 22 Jul 2024 06:13:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 01:51:11.431611
Title: Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL
Title（参考訳）: ビジュアルファウンデーションモデルとオフラインRLによる身体的視覚追跡の強化
Authors: Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen,
Abstract要約: 身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。視覚基盤モデルとオフライン強化学習を組み合わせた新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 19.757030674041037
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor generalization. In this paper, we propose a novel framework that combines visual foundation models(VFM) and offline reinforcement learning(offline RL) to empower embodied visual tracking. We use a pre-trained VFM, such as "Tracking Anything", to extract semantic segmentation masks with text prompts. We then train a recurrent policy network with offline RL, e.g., Conservative Q-Learning, to learn from the collected demonstrations without online interactions. To further improve the robustness and generalization of the policy network, we also introduce a mask re-targeting mechanism and a multi-level data collection strategy. In this way, we can train a robust policy within an hour on a consumer-level GPU, e.g., Nvidia RTX 3090. We evaluate our agent on several high-fidelity environments with challenging situations, such as distraction and occlusion. The results show that our agent outperforms state-of-the-art methods in terms of sample efficiency, robustness to distractors, and generalization to unseen scenarios and targets. We also demonstrate the transferability of the learned agent from virtual environments to a real-world robot.
Abstract（参考訳）: 身体的な視覚追跡は、エージェントの自我中心のビジョンを使用して、ダイナミックな3D環境でターゲットオブジェクトを追従することである。これは、エンボディされたエージェントにとって、不可欠で挑戦的なスキルです。しかし、既存の手法は非効率な訓練と一般化の欠如に悩まされている。本稿では,視覚基盤モデル(VFM)とオフライン強化学習(オフラインRL)を組み合わせた新しいフレームワークを提案する。我々は、テキストプロンプトでセマンティックセグメンテーションマスクを抽出するために、"Tracking Anything"のような事前訓練されたVFMを使用する。次に、オフラインのRL、例えば保守的なQ-Learningでリカレントポリシーネットワークをトレーニングし、オンラインインタラクションなしで収集されたデモから学習する。また,ポリシーネットワークの堅牢性と一般化をさらに向上するため,マスク再ターゲット機構とマルチレベルデータ収集戦略を導入する。このようにして、コンシューマレベルのGPU、例えばNvidia RTX 3090上で、1時間以内に堅牢なポリシをトレーニングすることができます。我々は,注意散らしや閉塞といった難易度の高い環境において,エージェントの評価を行った。その結果, エージェントは, サンプル効率, 邪魔者に対する堅牢性, 目に見えないシナリオやターゲットへの一般化の観点から, 最先端の手法よりも優れていた。また,仮想環境から実環境ロボットへの学習エージェントの移動可能性を示す。

関連論文リスト

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues [69.24378760740171]
本稿では,乱れたシーンにおけるロバスト性の欠如に対する解決策として,ビジュモータ・ポリシー・プールについて考察する。 AFA(Attentive Feature Aggregation)は、タスク関連視覚的キューに自然に出席することを学ぶ軽量でトレーニング可能なプール機構である。以上の結果から,視覚情報を無視することは,堅牢で汎用的な視覚運動ポリシーの展開に向けた重要なステップであることが示唆された。
論文参考訳（メタデータ） (2025-11-13T19:31:05Z)
Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文参考訳（メタデータ） (2025-06-16T08:09:32Z)
Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文参考訳（メタデータ） (2025-05-16T22:01:46Z)
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。 V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文参考訳（メタデータ） (2025-05-13T14:35:51Z)
Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach [55.76249793590689]
Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースの手法である。 VeoRLは、ロボット操作、自律運転、オープンワールドビデオゲームにおける視覚制御タスクにおいて、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-05-10T00:54:12Z)
Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文参考訳（メタデータ） (2024-11-08T02:12:34Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文参考訳（メタデータ） (2024-05-10T06:28:42Z)
Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。 2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文参考訳（メタデータ） (2024-04-26T10:18:17Z)
Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-18T19:25:57Z)
Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文参考訳（メタデータ） (2024-02-05T00:48:56Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Learning Robust Visual-Semantic Embedding for Generalizable Person Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。 MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文参考訳（メタデータ） (2023-04-19T08:37:25Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。