論文の概要: ENTER: Event Based Interpretable Reasoning for VideoQA
- arxiv url: http://arxiv.org/abs/2501.14194v1
- Date: Fri, 24 Jan 2025 02:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:11.007740
- Title: ENTER: Event Based Interpretable Reasoning for VideoQA
- Title(参考訳): ENTER: VideoQAのためのイベントベースの解釈可能な推論
- Authors: Hammad Ayyubi, Junzhang Liu, Ali Asgarov, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Zhecan Wang, Chia-Wei Tang, Hani Alomari, Md. Atabuzzaman, Xudong Lin, Naveen Reddy Dyava, Shih-Fu Chang, Chris Thomas,
- Abstract要約: 本稿では,イベントグラフに基づく解釈可能なビデオ質問回答システムであるENTERについて述べる。
イベントグラフはビデオをグラフィカルな表現に変換し、そこではビデオイベントがノードを形成し、イベントとイベントの関係がエッジを形成する。
- 参考スコア(独自算出の注目度): 29.710826599316302
- License:
- Abstract: In this paper, we present ENTER, an interpretable Video Question Answering (VideoQA) system based on event graphs. Event graphs convert videos into graphical representations, where video events form the nodes and event-event relationships (temporal/causal/hierarchical) form the edges. This structured representation offers many benefits: 1) Interpretable VideoQA via generated code that parses event-graph; 2) Incorporation of contextual visual information in the reasoning process (code generation) via event graphs; 3) Robust VideoQA via Hierarchical Iterative Update of the event graphs. Existing interpretable VideoQA systems are often top-down, disregarding low-level visual information in the reasoning plan generation, and are brittle. While bottom-up approaches produce responses from visual data, they lack interpretability. Experimental results on NExT-QA, IntentQA, and EgoSchema demonstrate that not only does our method outperform existing top-down approaches while obtaining competitive performance against bottom-up approaches, but more importantly, offers superior interpretability and explainability in the reasoning process.
- Abstract(参考訳): 本稿では,イベントグラフに基づく解釈可能なビデオ質問回答システムであるENTERについて述べる。
イベントグラフはビデオをグラフィカルな表現に変換し、そこではビデオイベントがノードを形成し、イベントイベントとイベントの関係(時間/因果/階層)がエッジを形成する。
この構造化された表現は多くの利点をもたらします。
1) イベントグラフを解析する生成されたコードによるビデオQAの解釈
2 イベントグラフによる推論過程(コード生成)における文脈視覚情報の取り込み
3) イベントグラフの階層的反復更新によるロバストビデオQA。
既存の解釈可能なビデオQAシステムは、しばしばトップダウンであり、推論計画生成における低レベルの視覚情報を無視し、脆弱である。
ボトムアップアプローチは視覚データから応答を生成するが、解釈性に欠ける。
NExT-QA,IntentQA,EgoSchemaの実験結果から,提案手法は既存のトップダウン手法よりも優れているだけでなく,ボトムアップアプローチに対する競争性能も向上することが示された。
関連論文リスト
- TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - Learning Situation Hyper-Graphs for Video Question Answering [95.18071873415556]
本稿では,映像コンテンツに関する質問に対して,状況のハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
我々は、暗黙的にグラフ表現を識別する状況ハイパーグラフデコーダを訓練し、入力されたビデオクリップからオブジェクトとオブジェクトの関係を判断する。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-04-18T01:23:11Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。