論文の概要: Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs
- arxiv url: http://arxiv.org/abs/2501.04336v1
- Date: Wed, 08 Jan 2025 08:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:01.071607
- Title: Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs
- Title(参考訳): 心の宮殿の建築:LLMを用いた効率的な長時間ビデオ解析のための環境境界セマンティックグラフの構築
- Authors: Zeyi Huang, Yuyang Ji, Xiaofang Wang, Nikhil Mehta, Tong Xiao, Donghyun Lee, Sigmund Vanvalkenburgh, Shengxin Zha, Bolin Lai, Licheng Yu, Ning Zhang, Yong Jae Lee, Miao Liu,
- Abstract要約: VideoMindは、重要なビデオモーメントを、アロジカルに構造化されたセマンティックグラフに整理する。
ミンドパレス」は、(i)手動追跡、(ii)繰り返し活動の特定領域を表すクラスタ化されたゾーン活動、(iii)環境レイアウトマッピングを通じて重要な情報を整理する。
- 参考スコア(独自算出の注目度): 66.57518905079262
- License:
- Abstract: Long-form video understanding with Large Vision Language Models is challenged by the need to analyze temporally dispersed yet spatially concentrated key moments within limited context windows. In this work, we introduce VideoMindPalace, a new framework inspired by the "Mind Palace", which organizes critical video moments into a topologically structured semantic graph. VideoMindPalace organizes key information through (i) hand-object tracking and interaction, (ii) clustered activity zones representing specific areas of recurring activities, and (iii) environment layout mapping, allowing natural language parsing by LLMs to provide grounded insights on spatio-temporal and 3D context. In addition, we propose the Video MindPalace Benchmark (VMB), to assess human-like reasoning, including spatial localization, temporal reasoning, and layout-aware sequential understanding. Evaluated on VMB and established video QA datasets, including EgoSchema, NExT-QA, IntentQA, and the Active Memories Benchmark, VideoMindPalace demonstrates notable gains in spatio-temporal coherence and human-aligned reasoning, advancing long-form video analysis capabilities in VLMs.
- Abstract(参考訳): 大きな視覚言語モデルを用いた長めのビデオ理解は、時間的に分散されているが空間的に集中したキーモーメントを限られたコンテキストウィンドウ内で分析する必要があるため、課題となる。
本研究では,重要なビデオモーメントをトポロジ的に構造化されたセマンティックグラフに整理する,"Mind Palace"にインスパイアされた新しいフレームワークであるVideoMindPalaceを紹介する。
VideoMindPalaceは重要な情報を整理する
(i)手動物体追跡と相互作用
二 繰り返し活動の特定領域を表す集合活動圏及び
3)環境レイアウトマッピングにより,LLMによる自然言語解析により,時空間と3次元の文脈に関する基礎的な洞察が得られる。
さらに,空間的局所化,時間的推論,レイアウトを考慮した逐次的理解など,人間的な推論を評価するためのビデオマインドパスベンチマーク(VMB)を提案する。
VMBと、EgoSchema、NExT-QA、IntentQA、Active Memories Benchmarkなど、確立されたビデオQAデータセットに基づいて評価されたVideoMindPalaceは、VLMにおける時空間コヒーレンスとヒューマンアラインな推論の顕著な向上を示し、ロングフォームのビデオ分析機能を進歩させた。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Learning Space-Time Semantic Correspondences [68.06065984976365]
ソースビデオ、ターゲットビデオ、およびソースビデオ内の時空キーポイントのセットが与えられた場合、そのタスクはターゲットビデオ内のキーポイントのセットを予測する必要がある。
我々は,この課題が,アクティビティコーチング,スポーツ分析,ロボット模倣学習などの応用が可能な,微粒な映像理解に重要であると信じている。
論文 参考訳(メタデータ) (2023-06-16T23:15:12Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。