論文の概要: Hierarchical Instruction-aware Embodied Visual Tracking
- arxiv url: http://arxiv.org/abs/2505.20710v1
- Date: Tue, 27 May 2025 04:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.407889
- Title: Hierarchical Instruction-aware Embodied Visual Tracking
- Title(参考訳): 階層的インストラクションを意識した身体的トラッキング
- Authors: Kui Wu, Hao Chen, Churan Wang, Fakhri Karray, Zhoujun Li, Yizhou Wang, Fangwei Zhong,
- Abstract要約: User-Centric Embodied Visual Tracking (UC-EVT)は、強化学習に基づくモデルにおいて、新しい課題を提示している。
我々は,テキスト空間目標を仲介として利用する命令理解と行動生成を橋渡しする,テキストbfインストラクションを意識した身体的視覚追跡(HIEVT)エージェントを提案する。
- 参考スコア(独自算出の注目度): 35.73851196966425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User-Centric Embodied Visual Tracking (UC-EVT) presents a novel challenge for reinforcement learning-based models due to the substantial gap between high-level user instructions and low-level agent actions. While recent advancements in language models (e.g., LLMs, VLMs, VLAs) have improved instruction comprehension, these models face critical limitations in either inference speed (LLMs, VLMs) or generalizability (VLAs) for UC-EVT tasks. To address these challenges, we propose \textbf{Hierarchical Instruction-aware Embodied Visual Tracking (HIEVT)} agent, which bridges instruction comprehension and action generation using \textit{spatial goals} as intermediaries. HIEVT first introduces \textit{LLM-based Semantic-Spatial Goal Aligner} to translate diverse human instructions into spatial goals that directly annotate the desired spatial position. Then the \textit{RL-based Adaptive Goal-Aligned Policy}, a general offline policy, enables the tracker to position the target as specified by the spatial goal. To benchmark UC-EVT tasks, we collect over ten million trajectories for training and evaluate across one seen environment and nine unseen challenging environments. Extensive experiments and real-world deployments demonstrate the robustness and generalizability of HIEVT across diverse environments, varying target dynamics, and complex instruction combinations. The complete project is available at https://sites.google.com/view/hievt.
- Abstract(参考訳): User-Centric Embodied Visual Tracking (UC-EVT)は、高レベルのユーザインストラクションと低レベルのエージェントアクションの間に大きなギャップがあるため、強化学習ベースのモデルに新たな課題を提示している。
近年の言語モデル(例えば、LLM、VLM、VLA)の進歩は命令理解を改善しているが、これらのモデルはUC-EVTタスクの推論速度(LLM、VLM)や一般化可能性(VLA)において重要な制限に直面している。
これらの課題に対処するために,<textit{spatial goal} を媒介として,命令理解と行動生成をブリッジする <textbf{Hierarchical Instruction-aware Embodied Visual Tracking (HIEVT) エージェントを提案する。
HIEVTはまず,目的とする空間的位置を直接アノテートする,多様な人間の指示を空間的目標に翻訳するために,textit{LLM-based Semantic-Spatial Goal Aligner}を導入した。
すると、一般のオフラインポリシーである \textit{RL-based Adaptive Goal-Aligned Policy} は、トラッカーが空間目標によって指定されたターゲットを位置決めすることを可能にする。
UC-EVTのタスクをベンチマークするために、トレーニングのための1000万以上のトラジェクトリを収集し、1つの環境と9つの困難な環境を横断的に評価する。
大規模な実験と実世界の展開は、HIEVTの様々な環境における堅牢性と一般化性、ターゲットダイナミクスの変化、複雑な命令の組み合わせを実証している。
完全なプロジェクトはhttps://sites.google.com/view/hievt.comで公開されている。
関連論文リスト
- ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。