Fugu-MT 論文翻訳(概要): Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

論文の概要: Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

arxiv url: http://arxiv.org/abs/2501.04336v1
Date: Wed, 08 Jan 2025 08:15:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.584266
Title: Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs
Title（参考訳）: 心の宮殿の建築:LLMを用いた効率的な長時間ビデオ解析のための環境境界セマンティックグラフの構築
Authors: Zeyi Huang, Yuyang Ji, Xiaofang Wang, Nikhil Mehta, Tong Xiao, Donghyun Lee, Sigmund Vanvalkenburgh, Shengxin Zha, Bolin Lai, Licheng Yu, Ning Zhang, Yong Jae Lee, Miao Liu,
Abstract要約: VideoMindは、重要なビデオモーメントを、アロジカルに構造化されたセマンティックグラフに整理する。ミンドパレス」は、(i)手動追跡、(ii)繰り返し活動の特定領域を表すクラスタ化されたゾーン活動、(iii)環境レイアウトマッピングを通じて重要な情報を整理する。
参考スコア（独自算出の注目度）: 66.57518905079262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-form video understanding with Large Vision Language Models is challenged by the need to analyze temporally dispersed yet spatially concentrated key moments within limited context windows. In this work, we introduce VideoMindPalace, a new framework inspired by the "Mind Palace", which organizes critical video moments into a topologically structured semantic graph. VideoMindPalace organizes key information through (i) hand-object tracking and interaction, (ii) clustered activity zones representing specific areas of recurring activities, and (iii) environment layout mapping, allowing natural language parsing by LLMs to provide grounded insights on spatio-temporal and 3D context. In addition, we propose the Video MindPalace Benchmark (VMB), to assess human-like reasoning, including spatial localization, temporal reasoning, and layout-aware sequential understanding. Evaluated on VMB and established video QA datasets, including EgoSchema, NExT-QA, IntentQA, and the Active Memories Benchmark, VideoMindPalace demonstrates notable gains in spatio-temporal coherence and human-aligned reasoning, advancing long-form video analysis capabilities in VLMs.
Abstract（参考訳）: 大きな視覚言語モデルを用いた長めのビデオ理解は、時間的に分散されているが空間的に集中したキーモーメントを限られたコンテキストウィンドウ内で分析する必要があるため、課題となる。本研究では,重要なビデオモーメントをトポロジ的に構造化されたセマンティックグラフに整理する,"Mind Palace"にインスパイアされた新しいフレームワークであるVideoMindPalaceを紹介する。 VideoMindPalaceは重要な情報を整理する (i)手動物体追跡と相互作用二繰り返し活動の特定領域を表す集合活動圏及び 3)環境レイアウトマッピングにより,LLMによる自然言語解析により,時空間と3次元の文脈に関する基礎的な洞察が得られる。さらに,空間的局所化,時間的推論,レイアウトを考慮した逐次的理解など,人間的な推論を評価するためのビデオマインドパスベンチマーク(VMB)を提案する。 VMBと、EgoSchema、NExT-QA、IntentQA、Active Memories Benchmarkなど、確立されたビデオQAデータセットに基づいて評価されたVideoMindPalaceは、VLMにおける時空間コヒーレンスとヒューマンアラインな推論の顕著な向上を示し、ロングフォームのビデオ分析機能を進歩させた。

関連論文リスト

ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models [63.12671761097701]
視覚言語モデル(Ms)は、移動距離や移動物体の速度などの要素を分析するのに苦労する。我々はSTKitとST-Benchと呼ばれるベンチマークデータセットを構築した。本稿では,ST-VLMが多様な領域やタスクにまたがって頑健に一般化されていることを示す。
論文参考訳（メタデータ） (2025-03-25T05:08:06Z)
Towards Fine-Grained Video Question Answering [17.582244704442747]
本稿では,MOMA-QAデータセットについて述べる。地上の真実のシーングラフと時間間隔アノテーションにより、MOMA-QAはきめ細かいビデオ理解のためのモデルを開発するのに最適である。本稿では、シーングラフ予測器、効率的なフレーム検索器、時間的局所化と微粒化の関係理解のための事前学習された大規模言語モデルを含む、新しいビデオ言語モデルSGVLMを提案する。
論文参考訳（メタデータ） (2025-03-10T01:02:01Z)
Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。 LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文参考訳（メタデータ） (2024-12-18T13:38:06Z)
Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。 VidSitu データセット上での TSADP の評価を行った。我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文参考訳（メタデータ） (2024-12-16T02:37:58Z)
Video LLMs for Temporal Reasoning in Long Videos [7.2900856926028155]
テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
論文参考訳（メタデータ） (2024-12-04T00:50:33Z)
Learning Space-Time Semantic Correspondences [68.06065984976365]
ソースビデオ、ターゲットビデオ、およびソースビデオ内の時空キーポイントのセットが与えられた場合、そのタスクはターゲットビデオ内のキーポイントのセットを予測する必要がある。我々は,この課題が,アクティビティコーチング,スポーツ分析,ロボット模倣学習などの応用が可能な,微粒な映像理解に重要であると信じている。
論文参考訳（メタデータ） (2023-06-16T23:15:12Z)
Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。 VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文参考訳（メタデータ） (2023-05-23T10:26:42Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。 BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文参考訳（メタデータ） (2020-10-20T07:43:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。