論文の概要: GHR-VQA: Graph-guided Hierarchical Relational Reasoning for Video Question Answering
- arxiv url: http://arxiv.org/abs/2511.20201v1
- Date: Tue, 25 Nov 2025 11:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.425255
- Title: GHR-VQA: Graph-guided Hierarchical Relational Reasoning for Video Question Answering
- Title(参考訳): GHR-VQA:ビデオ質問応答のためのグラフ誘導階層的関係推論
- Authors: Dionysia Danai Brilli, Dimitrios Mallis, Vassilis Pitsikalis, Petros Maragos,
- Abstract要約: 本稿では,ビデオシーケンス内の人間とオブジェクトの相互作用をキャプチャするグラフを組み込んだ新しいフレームワークを提案する。
従来の手法とは異なり、各フレームは複雑に表現され、フレームをまたいだグラフのヒューマンノードはシーンにリンクされる。
この人根構造は、人間と物体の相互作用に分解することで解釈可能性を高める。
- 参考スコア(独自算出の注目度): 15.887744981283179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose GHR-VQA, Graph-guided Hierarchical Relational Reasoning for Video Question Answering (Video QA), a novel human-centric framework that incorporates scene graphs to capture intricate human-object interactions within video sequences. Unlike traditional pixel-based methods, each frame is represented as a scene graph and human nodes across frames are linked to a global root, forming the video-level graph and enabling cross-frame reasoning centered on human actors. The video-level graphs are then processed by Graph Neural Networks (GNNs), transforming them into rich, context-aware embeddings for efficient processing. Finally, these embeddings are integrated with question features in a hierarchical network operating across different abstraction levels, enhancing both local and global understanding of video content. This explicit human-rooted structure enhances interpretability by decomposing actions into human-object interactions and enables a more profound understanding of spatiotemporal dynamics. We validate our approach on the Action Genome Question Answering (AGQA) dataset, achieving significant performance improvements, including a 7.3% improvement in object-relation reasoning over the state of the art.
- Abstract(参考訳): GHR-VQA, Graph-guided Hierarchical Relational Reasoning for Video Question Answering (ビデオQA)を提案する。
従来のピクセルベースの手法とは異なり、各フレームはシーングラフとして表現され、フレームをまたいだ人間のノードはグローバルなルートにリンクされ、ビデオレベルグラフを形成し、人間のアクターを中心としたクロスフレーム推論を可能にする。
ビデオレベルのグラフはグラフニューラルネットワーク(GNN)によって処理され、効率的な処理のためにリッチでコンテキスト対応の埋め込みに変換される。
最後に、これらの埋め込みは、様々な抽象化レベルで動作する階層ネットワークの質問機能と統合され、ビデオコンテンツの局所的およびグローバル的理解が向上する。
この明示的な人根構造は、アクションを人間とオブジェクトの相互作用に分解することで解釈可能性を高め、時空間力学をより深く理解することを可能にする。
我々は,Action Genome Question Answering (AGQA)データセットに対する我々のアプローチを検証する。
関連論文リスト
- Language-guided Recursive Spatiotemporal Graph Modeling for Video Summarization [47.65036144170475]
ビデオ要約は、視覚的に多様性があり、あるビデオの全ストーリーを表すものを選択することを目的としている。
本稿では,空間グラフと時間グラフのノードとしてオブジェクトとフレームを定式化するVideoGraphを提案する。
実験では, 汎用的およびクエリリンクビデオ要約のためのいくつかのベンチマークにおいて, 最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-06T05:37:31Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering [13.294004180200496]
我々は,マルチモーダルな知識をよりよく統合する3つの主要なイノベーションを取り入れたローカル・グローバル質問意識ビデオ埋め込み(LGQAVE)を紹介した。
LGQAVEは、質問に関する最も関連性の高いフレームを正確に識別するクロスアテンション機構を利用することで、従来のアドホックフレームサンプリングを越えている。
追加のクロスアテンションモジュールは、これらのローカルおよびグローバルな埋め込みを統合して、最終ビデオ埋め込みを生成する。
論文 参考訳(メタデータ) (2024-12-12T12:39:07Z) - HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding [8.10024991952397]
既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。
階層構造内の統一層とグラフを利用する階層型インターレースグラフ (HIG) という新しい手法を提案する。
提案手法は,様々なシナリオで実施された広範囲な実験を通じて,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-05T18:47:19Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。