論文の概要: HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation
- arxiv url: http://arxiv.org/abs/2411.18042v1
- Date: Wed, 27 Nov 2024 04:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:48.443591
- Title: HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation
- Title(参考訳): HyperGLM: ビデオシーングラフ生成と予測のためのHyperGraph
- Authors: Trong-Thuan Nguyen, Pha Nguyen, Jackson Cothren, Alper Yilmaz, Khoa Luu,
- Abstract要約: ビデオシーングラフ生成(VidSGG)は、ビデオフレーム間のマルチオブジェクト関係をキャプチャするために登場した。
Scene HyperGraph (HyperGLM) 上でのマルチモーダル LLM を提案する。
我々は,3人称,自我中心,ドローンビューから1.9Mフレームを備えた新しいビデオシーングラフ推論データセットを紹介した。
- 参考スコア(独自算出の注目度): 7.027942200231825
- License:
- Abstract: Multimodal LLMs have advanced vision-language tasks but still struggle with understanding video scenes. To bridge this gap, Video Scene Graph Generation (VidSGG) has emerged to capture multi-object relationships across video frames. However, prior methods rely on pairwise connections, limiting their ability to handle complex multi-object interactions and reasoning. To this end, we propose Multimodal LLMs on a Scene HyperGraph (HyperGLM), promoting reasoning about multi-way interactions and higher-order relationships. Our approach uniquely integrates entity scene graphs, which capture spatial relationships between objects, with a procedural graph that models their causal transitions, forming a unified HyperGraph. Significantly, HyperGLM enables reasoning by injecting this unified HyperGraph into LLMs. Additionally, we introduce a new Video Scene Graph Reasoning (VSGR) dataset featuring 1.9M frames from third-person, egocentric, and drone views and supports five tasks: Scene Graph Generation, Scene Graph Anticipation, Video Question Answering, Video Captioning, and Relation Reasoning. Empirically, HyperGLM consistently outperforms state-of-the-art methods across five tasks, effectively modeling and reasoning complex relationships in diverse video scenes.
- Abstract(参考訳): マルチモーダル LLM には高度な視覚言語タスクがあるが、ビデオシーンの理解に苦慮している。
このギャップを埋めるために、ビデオシーングラフ生成(VidSGG)が登場し、ビデオフレーム間の複数オブジェクトの関係を捉えている。
しかし、事前の手法はペアワイズ接続に依存しており、複雑な多目的相互作用や推論を扱う能力を制限する。
そこで我々は,マルチウェイインタラクションと高階関係の推論を促進するために,HyperGLM (Scene HyperGraph) 上でのマルチモーダル LLM を提案する。
提案手法は,オブジェクト間の空間的関係をキャプチャするエンティティシーングラフと,それらの因果遷移をモデル化し,統一されたハイパーグラフを形成するプロシージャグラフとを一意に統合する。
重要なことに、HyperGLMは、この統一されたHyperGraphをLSMに注入することで、推論を可能にする。
さらに、サードパーティ、エゴシック、ドローンビューの1.9Mフレームを特徴とする新しいビデオシーングラフ推論(VSGR)データセットを導入し、Scene Graph Generation、Scene Graph Precipation、Video Question Answering、 Video Captioning、Relation Reasoningの5つのタスクをサポートする。
実証的には、HyperGLMは5つのタスクにまたがる最先端の手法を一貫して上回り、多様なビデオシーンにおける複雑な関係を効果的にモデル化し推論する。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - Temporal Relational Modeling with Self-Supervision for Action
Segmentation [38.62057004624234]
ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T13:41:28Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。