Fugu-MT 論文翻訳(概要): CLiViS: Unleashing Cognitive Map through Linguistic-Visual Synergy for Embodied Visual Reasoning

論文の概要: CLiViS: Unleashing Cognitive Map through Linguistic-Visual Synergy for Embodied Visual Reasoning

arxiv url: http://arxiv.org/abs/2506.17629v1
Date: Sat, 21 Jun 2025 08:11:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.513337
Title: CLiViS: Unleashing Cognitive Map through Linguistic-Visual Synergy for Embodied Visual Reasoning
Title（参考訳）: CLiViS: 言語と視覚の相乗効果による認知マップの開放
Authors: Kailing Li, Qi'ao Xu, Tianwen Qian, Yuqian Fu, Yang Jiao, Xiaoling Wang,
Abstract要約: CLiViSは、オープンワールドの視覚知覚を編成してシーンコンテキストを更新する、トレーニング不要のフレームワークである。この写像は、低レベルの知覚と高レベルの推論をブリッジして、エンボディされたシーンの構造化された表現を構成する。
参考スコア（独自算出の注目度）: 18.94722835971905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied Visual Reasoning (EVR) seeks to follow complex, free-form instructions based on egocentric video, enabling semantic understanding and spatiotemporal reasoning in dynamic environments. Despite its promising potential, EVR encounters significant challenges stemming from the diversity of complex instructions and the intricate spatiotemporal dynamics in long-term egocentric videos. Prior solutions either employ Large Language Models (LLMs) over static video captions, which often omit critical visual details, or rely on end-to-end Vision-Language Models (VLMs) that struggle with stepwise compositional reasoning. Consider the complementary strengths of LLMs in reasoning and VLMs in perception, we propose CLiViS. It is a novel training-free framework that leverages LLMs for high-level task planning and orchestrates VLM-driven open-world visual perception to iteratively update the scene context. Building on this synergy, the core of CLiViS is a dynamic Cognitive Map that evolves throughout the reasoning process. This map constructs a structured representation of the embodied scene, bridging low-level perception and high-level reasoning. Extensive experiments across multiple benchmarks demonstrate the effectiveness and generality of CLiViS, especially in handling long-term visual dependencies. Code is available at https://github.com/Teacher-Tom/CLiViS.
Abstract（参考訳）: EVR(Embodied Visual Reasoning)は、エゴセントリックなビデオに基づく複雑な自由形式の指示に従って、動的環境における意味的理解と時空間的推論を可能にする。その有望な可能性にもかかわらず、EVRは複雑な指示の多様性と長期的自我中心のビデオにおける複雑な時空間ダイナミクスから生じる重大な課題に直面している。以前のソリューションでは、静的なビデオキャプションの上にLarge Language Models (LLM)を採用しており、重要な視覚的詳細を省略することが多い。推論におけるLLMと知覚におけるVLMの相補的強度を考慮し,CLiViSを提案する。 LLMを高レベルなタスク計画に活用し、VLM駆動のオープンワールド視覚認識を編成し、シーンコンテキストを反復的に更新する、新たなトレーニングフリーフレームワークである。このシナジーに基づいて構築されているCLiViSの中核は、推論プロセスを通して進化する動的認知マップである。この写像は、低レベルの知覚と高レベルの推論をブリッジして、エンボディされたシーンの構造化された表現を構成する。複数のベンチマークにわたる大規模な実験は、CLiViSの有効性と一般性を示し、特に長期の視覚的依存関係を扱う。コードはhttps://github.com/Teacher-Tom/CLiViS.comで入手できる。

関連論文リスト

Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs [66.57518905079262]
VideoMindは、重要なビデオモーメントを、アロジカルに構造化されたセマンティックグラフに整理する。ミンドパレス」は、(i)手動追跡、(ii)繰り返し活動の特定領域を表すクラスタ化されたゾーン活動、(iii)環境レイアウトマッピングを通じて重要な情報を整理する。
論文参考訳（メタデータ） (2025-01-08T08:15:29Z)
Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。 VidSitu データセット上での TSADP の評価を行った。我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文参考訳（メタデータ） (2024-12-16T02:37:58Z)
HyperSeg: Towards Universal Visual Segmentation with Large Language Model [40.326267496697845]
本稿では,視覚的大言語モデル(VLLM)による強力な推論能力により,画像・映像知覚の普遍的セグメンテーションを実現することを目的とする。画素レベルの画像と映像知覚のための,VLLMに基づく最初のユニバーサルセグメンテーションモデルであるHyperSegを提案する。
論文参考訳（メタデータ） (2024-11-26T17:18:20Z)
Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文参考訳（メタデータ） (2024-09-21T02:10:19Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文参考訳（メタデータ） (2023-10-23T17:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。