論文の概要: CLiViS: Unleashing Cognitive Map through Linguistic-Visual Synergy for Embodied Visual Reasoning
- arxiv url: http://arxiv.org/abs/2506.17629v1
- Date: Sat, 21 Jun 2025 08:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.513337
- Title: CLiViS: Unleashing Cognitive Map through Linguistic-Visual Synergy for Embodied Visual Reasoning
- Title(参考訳): CLiViS: 言語と視覚の相乗効果による認知マップの開放
- Authors: Kailing Li, Qi'ao Xu, Tianwen Qian, Yuqian Fu, Yang Jiao, Xiaoling Wang,
- Abstract要約: CLiViSは、オープンワールドの視覚知覚を編成してシーンコンテキストを更新する、トレーニング不要のフレームワークである。
この写像は、低レベルの知覚と高レベルの推論をブリッジして、エンボディされたシーンの構造化された表現を構成する。
- 参考スコア(独自算出の注目度): 18.94722835971905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Visual Reasoning (EVR) seeks to follow complex, free-form instructions based on egocentric video, enabling semantic understanding and spatiotemporal reasoning in dynamic environments. Despite its promising potential, EVR encounters significant challenges stemming from the diversity of complex instructions and the intricate spatiotemporal dynamics in long-term egocentric videos. Prior solutions either employ Large Language Models (LLMs) over static video captions, which often omit critical visual details, or rely on end-to-end Vision-Language Models (VLMs) that struggle with stepwise compositional reasoning. Consider the complementary strengths of LLMs in reasoning and VLMs in perception, we propose CLiViS. It is a novel training-free framework that leverages LLMs for high-level task planning and orchestrates VLM-driven open-world visual perception to iteratively update the scene context. Building on this synergy, the core of CLiViS is a dynamic Cognitive Map that evolves throughout the reasoning process. This map constructs a structured representation of the embodied scene, bridging low-level perception and high-level reasoning. Extensive experiments across multiple benchmarks demonstrate the effectiveness and generality of CLiViS, especially in handling long-term visual dependencies. Code is available at https://github.com/Teacher-Tom/CLiViS.
- Abstract(参考訳): EVR(Embodied Visual Reasoning)は、エゴセントリックなビデオに基づく複雑な自由形式の指示に従って、動的環境における意味的理解と時空間的推論を可能にする。
その有望な可能性にもかかわらず、EVRは複雑な指示の多様性と長期的自我中心のビデオにおける複雑な時空間ダイナミクスから生じる重大な課題に直面している。
以前のソリューションでは、静的なビデオキャプションの上にLarge Language Models (LLM)を採用しており、重要な視覚的詳細を省略することが多い。
推論におけるLLMと知覚におけるVLMの相補的強度を考慮し,CLiViSを提案する。
LLMを高レベルなタスク計画に活用し、VLM駆動のオープンワールド視覚認識を編成し、シーンコンテキストを反復的に更新する、新たなトレーニングフリーフレームワークである。
このシナジーに基づいて構築されているCLiViSの中核は、推論プロセスを通して進化する動的認知マップである。
この写像は、低レベルの知覚と高レベルの推論をブリッジして、エンボディされたシーンの構造化された表現を構成する。
複数のベンチマークにわたる大規模な実験は、CLiViSの有効性と一般性を示し、特に長期の視覚的依存関係を扱う。
コードはhttps://github.com/Teacher-Tom/CLiViS.comで入手できる。
関連論文リスト
- Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - HyperSeg: Towards Universal Visual Segmentation with Large Language Model [40.326267496697845]
本稿では,視覚的大言語モデル(VLLM)による強力な推論能力により,画像・映像知覚の普遍的セグメンテーションを実現することを目的とする。
画素レベルの画像と映像知覚のための,VLLMに基づく最初のユニバーサルセグメンテーションモデルであるHyperSegを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:18:20Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。