論文の概要: Semantic Event Graphs for Long-Form Video Question Answering
- arxiv url: http://arxiv.org/abs/2601.06097v1
- Date: Fri, 02 Jan 2026 00:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.637537
- Title: Semantic Event Graphs for Long-Form Video Question Answering
- Title(参考訳): 長時間ビデオ質問応答のためのセマンティックイベントグラフ
- Authors: Aradhya Dixit, Tianxi Liang,
- Abstract要約: 本稿では,ビデオと言語間の軽量なシンボリックインタフェースを提案する。
我々のパイプラインは、YOLOv11でオブジェクトを検出し追跡し、近接パターンをSTART/ENDのヒューマンオブジェクトイベントに変換し、それらをテンポラルシーングラフ(TSG)に整理する。
5つのYouTubeビデオ(それぞれ300-500のインタラクション)と120のロングホライゾンの質問が自動生成され、SEG 65.0%の精度はクエリ毎に3.47kトークンしか使用せず、全ログベースラインと密に一致し、トークン使用率を91.4%削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form video question answering remains challenging for modern vision-language models, which struggle to reason over hour-scale footage without exceeding practical token and compute budgets. Existing systems typically downsample frames or feed dense visual embeddings to large-context language models, trading off temporal coverage against cost. We propose Semantic Event Graphs (SEG), a lightweight symbolic interface between video and language that replaces raw frames with compact temporal interaction logs. Our pipeline detects and tracks objects with YOLOv11, converts proximity patterns into START/END human-object events, and organizes them into a Temporal Scene Graph (TSG). At inference time, a query-aware pruning module identifies anchor entities and lexically relevant events, returning only a small subgraph which is verbalized and passed to Gemini 2.5 Flash for answer generation. On five YouTube videos (300-500 interactions each) and 120 automatically generated long-horizon questions, SEG achieves 65.0% accuracy using only 3.47k tokens per query, closely matching a full-log baseline (62.5% at 40.39k tokens) while reducing token usage by 91.4%. A short-context baseline restricted to the last 30 seconds collapses to 2.5% accuracy, underscoring the need for explicit temporal memory. These results show that symbolic temporal graphs can serve as an effective, plug-and-play memory layer for off-the-shelf vision-language models, preserving long-range reasoning ability while making long-form video question answering substantially more token- and cost-efficient. Code, logs, and event-extraction tools will be released for reproducibility.
- Abstract(参考訳): 現代の視覚言語モデルでは、実際のトークンや計算予算を超えることなく、1時間単位の映像の推論に苦慮している。
既存のシステムは通常、フレームをダウンサンプルするか、大きなコンテキスト言語モデルに密な視覚的埋め込みを供給し、時間的カバレッジをコストから引き離す。
本稿では,ビデオと言語間の軽量なシンボルインタフェースであるSemantic Event Graphs (SEG)を提案する。
我々のパイプラインは、YOLOv11でオブジェクトを検出し追跡し、近接パターンをSTART/ENDのヒューマンオブジェクトイベントに変換し、それらをテンポラルシーングラフ(TSG)に整理する。
推測時、クエリ対応プルーニングモジュールはアンカーエンティティと語彙的に関連するイベントを識別し、動詞化されてGemini 2.5 Flashに渡される小さなサブグラフのみを返す。
5つのYouTubeビデオ(それぞれ300-500のインタラクション)と120のロングホライゾンの質問に対して、SEGはクエリ毎に3.47kトークンのみを使用して65.0%の精度を達成し、全ログベースライン(40.39kトークンで62.5%)と密にマッチングし、トークン使用率を91.4%削減した。
最後の30秒に制限された短いコンテキストベースラインは2.5%の精度に崩壊し、明示的な時間記憶の必要性が強調された。
これらの結果から, 記号時間グラフは, 長期推論能力を保ちながら, トークンとコスト効率を著しく向上させつつ, 市販の視覚言語モデルに有効なプラグアンドプレイメモリ層として機能することを示す。
コード、ログ、イベント抽出ツールが再現性のためにリリースされる。
関連論文リスト
- Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models [24.875526594002434]
長いビデオ理解シナリオのための視覚トークン選択モジュールであるQTSplusを提案する。
Qwen2.5-VLに統合され、ビジョンストリームを textbf89% まで圧縮し、長いビデオでは textbf28% でエンドツーエンドのレイテンシを低減する。
以上の結果から,QTSplusはMLLMを現実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
論文 参考訳(メタデータ) (2025-11-14T22:41:27Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing [2.648500779572419]
視覚言語モデル(VLM)は、注意機構の複雑さのために長めのビデオに苦しむ。
本稿では,クエリからの時間的手がかりを利用して,適応的にビデオトークンを作成可能な言語誘導型時間的トケンプルーニング(LGTTP)を提案する。
モデルに依存しないフレームワークはTimeChatやLLaVA-Videoと統合され,オリジナル性能の97~99%を保ちながら,計算の65%の削減を実現している。
論文 参考訳(メタデータ) (2025-08-25T05:51:21Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - Time Blindness: Why Video-Language Models Can't See What Humans Can? [48.653937503646375]
我々は、ノイズのようなフレームの時間的シーケンスにのみ情報を格納するベンチマークである$bfSpookyBenchを紹介した。
人間は98%以上の精度でこれらのシーケンスの形状、テキスト、パターンを認識できるが、最先端の視覚言語モデルは0%の精度を達成する。
この性能ギャップは、フレームレベルの空間的特徴に対する過度な信頼と、時間的手がかりから意味を抽出できないという、限界を浮き彫りにする。
論文 参考訳(メタデータ) (2025-05-30T17:59:12Z) - DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。
オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。
DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文 参考訳(メタデータ) (2025-03-18T06:49:51Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。