論文の概要: Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering
- arxiv url: http://arxiv.org/abs/2407.03008v1
- Date: Wed, 3 Jul 2024 11:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:35:46.926172
- Title: Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering
- Title(参考訳): アライメントとアグリゲーション:ビデオ質問に対するビデオアライメントと回答アグリゲーションによる構成的推論
- Authors: Zhaohe Liao, Jiangtong Li, Li Niu, Liqing Zhang,
- Abstract要約: Video Question-Answering (VideoQA) は一般にブラックボックスとして機能し、それらの推論プロセスを理解し、一貫した構成的推論を行うのが困難である。
本稿では,ビデオコーディネータと応答アグリゲータモジュールを統合することで,既存のVidQA手法の構成整合性と精度を両立させるフレームワークを提案する。
本フレームワークは,既存手法の構成整合性と精度を向上し,より解釈可能な実世界のVidQAモデルを実現する。
- 参考スコア(独自算出の注目度): 28.390347463397955
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the recent progress made in Video Question-Answering (VideoQA), these methods typically function as black-boxes, making it difficult to understand their reasoning processes and perform consistent compositional reasoning. To address these challenges, we propose a \textit{model-agnostic} Video Alignment and Answer Aggregation (VA$^{3}$) framework, which is capable of enhancing both compositional consistency and accuracy of existing VidQA methods by integrating video aligner and answer aggregator modules. The video aligner hierarchically selects the relevant video clips based on the question, while the answer aggregator deduces the answer to the question based on its sub-questions, with compositional consistency ensured by the information flow along question decomposition graph and the contrastive learning strategy. We evaluate our framework on three settings of the AGQA-Decomp dataset with three baseline methods, and propose new metrics to measure the compositional consistency of VidQA methods more comprehensively. Moreover, we propose a large language model (LLM) based automatic question decomposition pipeline to apply our framework to any VidQA dataset. We extend MSVD and NExT-QA datasets with it to evaluate our VA$^3$ framework on broader scenarios. Extensive experiments show that our framework improves both compositional consistency and accuracy of existing methods, leading to more interpretable real-world VidQA models.
- Abstract(参考訳): ビデオ質問回答(Video Question-Answering, VideoQA)の最近の進歩にもかかわらず、これらの手法は一般的にブラックボックスとして機能し、それらの推論プロセスを理解し、一貫した構成的推論を行うのが困難である。
これらの課題に対処するために,ビデオアライメントと応答アグリゲータモジュールを統合することで,既存のVidQA手法の構成整合性と精度を両立させることができる,ビデオアライメントとアンサーアグリゲーション(VA$^{3}$)フレームワークを提案する。
ビデオ整合器は、質問に基づいて関連ビデオクリップを階層的に選択し、回答集約器はそのサブクエストに基づいて質問に対する回答を推論し、質問分解グラフ及びコントラスト学習戦略に沿った情報フローによって構成整合性を確保する。
我々は,AGQA-Decompデータセットの3つの設定をベースライン手法で評価し,VidQA手法の構成整合性をより包括的に測定するための新しい指標を提案する。
さらに,我々のフレームワークを任意のVidQAデータセットに適用するために,大規模言語モデル(LLM)に基づく自動質問分解パイプラインを提案する。
私たちは、より広いシナリオでVA$^3$フレームワークを評価するために、MSVDとNExT-QAデータセットを拡張します。
大規模な実験により,本フレームワークは既存手法の構成整合性および精度を向上し,より解釈可能な実世界のVidQAモデルが得られた。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.024232182899354]
そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T04:09:37Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Dense but Efficient VideoQA for Intricate Compositional Reasoning [9.514382838449928]
複雑なタスクに対処するための変形性アテンション機構を備えたトランスフォーマーに基づく新しいビデオQA手法を提案する。
複雑な質問文内の係り受け構造は、言語埋め込みと組み合わせて、質問語間の意味的関係を容易に理解する。
論文 参考訳(メタデータ) (2022-10-19T05:01:20Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。