論文の概要: Leveraging Static Relationships for Intra-Type and Inter-Type Message Passing in Video Question Answering
- arxiv url: http://arxiv.org/abs/2504.02417v1
- Date: Thu, 03 Apr 2025 09:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:59.728328
- Title: Leveraging Static Relationships for Intra-Type and Inter-Type Message Passing in Video Question Answering
- Title(参考訳): ビデオ質問応答におけるタイプ内およびタイプ間メッセージパッシングの静的関係の活用
- Authors: Lili Liang, Guanglu Sun,
- Abstract要約: 本稿では,静的な関係に基づく型内および型間メッセージパッシングの推論手法を提案する。
ANetQAデータセットとNext-QAデータセットの実験結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 1.192436948211501
- License:
- Abstract: Video Question Answering (VideoQA) is an important research direction in the field of artificial intelligence, enabling machines to understand video content and perform reasoning and answering based on natural language questions. Although methods based on static relationship reasoning have made certain progress, there are still deficiencies in the accuracy of static relationship recognition and representation, and they have not fully utilized the static relationship information in videos for in-depth reasoning and analysis. Therefore, this paper proposes a reasoning method for intra-type and inter-type message passing based on static relationships. This method constructs a dual graph for intra-type message passing reasoning and builds a heterogeneous graph based on static relationships for inter-type message passing reasoning. The intra-type message passing reasoning model captures the neighborhood information of targets and relationships related to the question in the dual graph, updating the dual graph to obtain intra-type clues for answering the question. The inter-type message passing reasoning model captures the neighborhood information of targets and relationships from different categories related to the question in the heterogeneous graph, updating the heterogeneous graph to obtain inter-type clues for answering the question. Finally, the answers are inferred by combining the intra-type and inter-type clues based on static relationships. Experimental results on the ANetQA and Next-QA datasets demonstrate the effectiveness of this method.
- Abstract(参考訳): ビデオ質問回答(Video Question Answering, VideoQA)は、機械がビデオの内容を理解し、自然言語の質問に基づいて推論と回答を行うことを可能にする人工知能分野における重要な研究方向である。
静的関係推論に基づく手法は、一定の進歩を遂げているが、静的関係認識と表現の精度にはまだ欠陥があり、ビデオ内の静的関係情報を深い推論と分析に完全に活用していない。
そこで本稿では,静的な関係に基づく型内および型間メッセージパッシングの推論手法を提案する。
本手法は、タイプ間メッセージパッシング推論のための二重グラフを構築し、タイプ間メッセージパッシング推論のための静的関係に基づく異種グラフを構築する。
Intra-type message passing reasoning modelは、二重グラフ内の質問に関連するターゲットの近傍情報と関係を捕捉し、その疑問に答えるためのタイプ内ヒントを得るためにデュアルグラフを更新する。
タイプ間メッセージパッシング推論モデルは、異種グラフにおける問題に関連する異なるカテゴリからターゲットと関係の近傍情報を捕捉し、異種グラフを更新し、その疑問に答えるためのタイプ間ヒントを得る。
最後に、静的な関係に基づいて、型内および型間ヒントを組み合わせることで、回答を推測する。
ANetQAデータセットとNext-QAデータセットの実験結果から,本手法の有効性が示された。
関連論文リスト
- Unbiased Scene Graph Generation by Type-Aware Message Passing on Heterogeneous and Dual Graphs [1.0609815608017066]
これらの問題に対処するために,非バイアスのシーングラフ生成(TA-HDG)を提案する。
対話型および非対話型関係をモデル化するために,対話型グラフ構築法を提案する。
Type-Aware Message Passingは、複雑なインタラクションの理解を強化する。
論文 参考訳(メタデータ) (2024-11-20T12:54:47Z) - Relation-Aware Question Answering for Heterogeneous Knowledge Graphs [37.38138785470231]
既存の検索に基づくアプローチは、異なるホップにおける特定の関係に集中することで、この課題を解決する。
我々は,現在の関係表現を強化するために,ヘッドテールエンティティや関係間の意味的関係からの情報を利用することができないと主張している。
当社のアプローチは,従来の最先端技術よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-12-19T08:01:48Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Bridge to Answer: Structure-aware Graph Interaction Network for Video
Question Answering [56.65656211928256]
本稿では,ある映像に対する質問に対する正しい回答を推測する新しい手法である「回答のためのブリッジ」を提案する。
映像と問合せの関係を利用して,問答間インタラクションを用いて各視覚ノードを有効化することにより,質問条件付きビジュアルグラフを学習する。
本手法は,映像質問応答に強力な能力を示す外観と動作に起因する質問条件付き視覚表現を学習できる。
論文 参考訳(メタデータ) (2021-04-29T03:02:37Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z) - Relational Message Passing for Knowledge Graph Completion [78.47976646383222]
本稿では,知識グラフ補完のためのリレーショナルメッセージパッシング手法を提案する。
エッジ間でリレーショナルメッセージを反復的に送信し、近隣情報を集約する。
その結果,本手法は最先端の知識完成手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-17T03:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。