論文の概要: VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Visual-Language Models
- arxiv url: http://arxiv.org/abs/2505.20718v1
- Date: Tue, 27 May 2025 04:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.41202
- Title: VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Visual-Language Models
- Title(参考訳): VLMが優れたアシスタントになる:自己改善型ビジュアルランゲージモデルによる身体的視覚追跡の強化
- Authors: Kui Wu, Shuhang Xu, Hao Chen, Churan Wang, Zhoujun Li, Yizhou Wang, Fangwei Zhong,
- Abstract要約: 視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しいフレームワークを提案する。
この研究は、EVTエージェントのアクティブ障害回復を支援するVLMベースの推論の最初の統合である。
- 参考スコア(独自算出の注目度): 34.60772103760521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel self-improving framework that enhances Embodied Visual Tracking (EVT) with Visual-Language Models (VLMs) to address the limitations of current active visual tracking systems in recovering from tracking failure. Our approach combines the off-the-shelf active tracking methods with VLMs' reasoning capabilities, deploying a fast visual policy for normal tracking and activating VLM reasoning only upon failure detection. The framework features a memory-augmented self-reflection mechanism that enables the VLM to progressively improve by learning from past experiences, effectively addressing VLMs' limitations in 3D spatial reasoning. Experimental results demonstrate significant performance improvements, with our framework boosting success rates by $72\%$ with state-of-the-art RL-based approaches and $220\%$ with PID-based methods in challenging environments. This work represents the first integration of VLM-based reasoning to assist EVT agents in proactive failure recovery, offering substantial advances for real-world robotic applications that require continuous target monitoring in dynamic, unstructured environments. Project website: https://sites.google.com/view/evt-recovery-assistant.
- Abstract(参考訳): トラッキング障害から回復する際の現在のアクティブな視覚追跡システムの限界に対処するために、視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しい自己改善フレームワークを提案する。
提案手法は,市販のアクティブトラッキング手法とVLMの推論機能を組み合わせて,通常のトラッキングのための高速な視覚ポリシーをデプロイし,故障検出時にのみVLM推論を活性化する。
このフレームワークはメモリ拡張された自己回帰機構を備えており、VLMは過去の経験から学習することで徐々に改善し、3次元空間推論におけるVLMの限界に効果的に対処することができる。
実験の結果,我々のフレームワークは,最先端のRLベースのアプローチによる成功率を72 %,挑戦的な環境におけるPIDベースの手法による220 %に向上した。
この研究は、EVTエージェントの積極的な障害回復を支援するためにVLMベースの推論を初めて統合したものであり、動的で非構造的な環境において継続的なターゲット監視を必要とする現実のロボットアプリケーションにかなりの進歩をもたらした。
プロジェクトウェブサイト: https://sites.google.com/view/evt-recovery-assistant
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - Weakly-supervised VLM-guided Partial Contrastive Learning for Visual Language Navigation [36.17444261325021]
ビジュアル言語ナビゲーション(VLN)は、エージェントが自然言語命令に基づいて複雑な環境をナビゲートできることに焦点を当てた、Embodied AIの分野における基本的なタスクである。
既存の手法は、VLNシナリオの動的視点と競合する視覚知覚のための事前訓練されたバックボーンモデルに依存している。
Weakly-supervised partial Contrastive Learning (WPCL) は, VLMの微調整を必要とせずに, VLNシナリオの動的視点からオブジェクトを識別する能力を高める手法である。
論文 参考訳(メタデータ) (2025-06-18T11:43:50Z) - VLMInferSlow: Evaluating the Efficiency Robustness of Large Vision-Language Models as a Service [11.715844075786958]
VLMInferSlowは、現実的なブラックボックス設定において、VLM効率の堅牢性を評価するための新しいアプローチである。
VLMInferSlowは、知覚不能な摂動を伴う逆画像を生成し、計算コストを最大128.47%向上させることを示す。
論文 参考訳(メタデータ) (2025-06-18T08:57:17Z) - TrackVLA: Embodied Visual Tracking in the Wild [34.03604806748204]
Embodied visual trackingは、Embodied AIの基本的なスキルであり、エージェントは、自我中心の視覚のみを使用して、動的環境における特定のターゲットに従うことができる。
既存のアプローチは通常、認識と計画のモジュラー分離を通じてこの問題に対処する。
本研究では,物体認識と軌道計画の相乗効果を学習する視覚・言語・行動モデルであるTrackVLAを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:28:09Z) - EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation [30.207690822989292]
自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。
高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:58:48Z) - Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL [19.757030674041037]
身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデルとオフライン強化学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T15:12:53Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。