論文の概要: Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2605.07575v1
- Date: Fri, 08 May 2026 10:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.005102
- Title: Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
- Title(参考訳): Response-G1: Proactive Streaming Video Understandingのための露骨なシーングラフモデリング
- Authors: Ke Ma, Jiaqi Tang, Bin Guo, Xueting Han, Ruonan Xu, Qingfeng He, Ziheng Wang, Xu Wang, Qifeng Chen, Zhiwen Yu, Yunhao Liu,
- Abstract要約: Response-G1は、蓄積されたビデオエビデンスと、シーングラフによるクエリの期待応答条件との明示的で構造化されたアライメントを確立する新しいフレームワークである。
このフレームワークは,(1)ストリーミングクリップからのオンラインクエリ誘導シーングラフ生成,(2)最も意味のある歴史的シーングラフのメモリベース検索,(3)フレーム単位の「サイレンス/レスポンス」決定を促す検索強化トリガーの3段階で動作する。
- 参考スコア(独自算出の注目度): 47.09619374032119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proactive streaming video understanding requires Video-LLMs to decide when to respond as a video unfolds, a task where existing methods often fall short due to their implicit, query-agnostic modeling of visual evidence. We introduce Response-G1, a novel framework that establishes explicit, structured alignment between the accumulated video evidence and the query's expected response conditions via scene graphs. The framework operates in three fine-tuning-free stages: (1) online query-guided scene graph generation from streaming clips; (2) memory-based retrieval of the most semantically relevant historical scene graphs; and (3) retrieval-augmented trigger prompting for per-frame "silence/response" decisions.By grounding both evidence and conditions in a shared graph representation, Response-G1 achieves more interpretable and accurate response timing decisions. Experimental results on established benchmarks demonstrate the superiority of our method in both proactive and reactive tasks, validating the advantage of explicit scene graph modeling and retrieval in streaming video understanding.
- Abstract(参考訳): プロアクティブなストリーミングビデオ理解では、ビデオの展開時に応答するタイミングを決定するためにビデオLLMが必要である。
本稿では,蓄積したビデオ証拠と,シーングラフによるクエリの期待応答条件との明示的,構造化されたアライメントを確立する新しいフレームワークであるResponse-G1を紹介する。
本フレームワークは,(1)ストリーミングクリップからのオンラインクエリ誘導シーングラフ生成,(2)最も意味のある歴史的シーングラフのメモリベース検索,(3)フレーム単位の「サイレンス/レスポンス」決定を促す検索強化トリガーの3段階で動作する。
確立されたベンチマーク実験の結果,アクティブタスクとリアクティブタスクの両方において,提案手法の優位性を実証し,ストリーム映像理解における明示的なシーングラフモデリングと検索の利点を検証した。
関連論文リスト
- GraphReAct: Reasoning and Acting for Multi-step Graph Inference [49.26607058250454]
GraphReActは、グラフ構造化データに対するステップバイステップの推論を可能にするグラフ推論実行フレームワークである。
検索と精細化の両方で推論をインターリーブすることで、我々のフレームワークは文脈拡張から圧縮への進歩的な移行を可能にします。
論文 参考訳(メタデータ) (2026-05-08T07:09:42Z) - ENTER: Event Based Interpretable Reasoning for VideoQA [29.710826599316302]
本稿では,イベントグラフに基づく解釈可能なビデオ質問回答システムであるENTERについて述べる。
イベントグラフはビデオをグラフィカルな表現に変換し、そこではビデオイベントがノードを形成し、イベントとイベントの関係がエッジを形成する。
論文 参考訳(メタデータ) (2025-01-24T02:56:59Z) - Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing [46.701439459096235]
我々はtextittextbfG2 という新しいビジュアルコモンセンス推論手法を提案する。
まず、画像パッチとLCMを使用して、位置のないシーングラフを構築し、シーングラフの情報に基づいて回答と説明を行う。
また、トレーニング中に貴重なシーングラフ情報を吸収するためのシーングラフの自動フィルタリングと選択戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:00:36Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Bridge to Answer: Structure-aware Graph Interaction Network for Video
Question Answering [56.65656211928256]
本稿では,ある映像に対する質問に対する正しい回答を推測する新しい手法である「回答のためのブリッジ」を提案する。
映像と問合せの関係を利用して,問答間インタラクションを用いて各視覚ノードを有効化することにより,質問条件付きビジュアルグラフを学習する。
本手法は,映像質問応答に強力な能力を示す外観と動作に起因する質問条件付き視覚表現を学習できる。
論文 参考訳(メタデータ) (2021-04-29T03:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。