論文の概要: TimeLogic: A Temporal Logic Benchmark for Video QA
- arxiv url: http://arxiv.org/abs/2501.07214v1
- Date: Mon, 13 Jan 2025 11:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:13.329845
- Title: TimeLogic: A Temporal Logic Benchmark for Video QA
- Title(参考訳): TimeLogic: ビデオQAのための時間論理ベンチマーク
- Authors: Sirnam Swetha, Hilde Kuehne, Mubarak Shah,
- Abstract要約: 時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
- 参考スコア(独自算出の注目度): 64.32208175236323
- License:
- Abstract: Temporal logical understanding, a core facet of human cognition, plays a pivotal role in capturing complex sequential events and their temporal relationships within videos. This capability is particularly crucial in tasks like Video Question Answering (VideoQA), where the goal is to process visual data over time together with textual data to provide coherent answers. However, current VideoQA benchmarks devote little focus to evaluating this critical skill due to the challenge of annotating temporal logic. Despite the advancement of vision-language models, assessing their temporal logical reasoning powers remains a challenge, primarily due to the lack QA pairs that demand formal, complex temporal reasoning. To bridge this gap, we introduce the TimeLogic QA (TLQA) framework to automatically generate the QA pairs, specifically designed to evaluate the temporal logical understanding. To this end, TLQA leverages temporal annotations from existing video datasets together with temporal operators derived from logic theory to construct questions that test understanding of event sequences and their temporal relationships. TLQA framework is generic and scalable, capable of leveraging both, existing video action datasets with temporal action segmentation annotations, or video datasets with temporal scene graph annotations, to automatically generate temporal logical questions. We leverage 4 datasets, STAR, Breakfast, AGQA, and CrossTask, and generate two VideoQA dataset variants - small (TLQA-S) and large (TLQA-L) - containing 2k and 10k QA pairs for each category, resulting in 32k and 160k total pairs per dataset. We undertake a comprehensive evaluation of leading-edge VideoQA models, employing the TLQA to benchmark their temporal logical understanding capabilities. We assess the VideoQA model's temporal reasoning performance on 16 categories of temporal logic with varying temporal complexity.
- Abstract(参考訳): 人間の認知の中核的な側面である時間的論理的理解は、複雑なシーケンシャルな出来事とその時間的関係をビデオ内で捉える上で重要な役割を果たす。
この機能は、ビデオ質問回答(Video Question Answering, VideoQA)のようなタスクにおいて特に重要である。
しかし、現在のVideoQAベンチマークでは、この重要なスキルを評価することにはほとんど注力していない。
視覚言語モデルの進歩にもかかわらず、その時間的論理的推論能力を評価することは、主に形式的で複雑な時間的推論を要求するQAペアが欠如していることから、依然として困難である。
このギャップを埋めるために、時間的論理的理解を評価するために特別に設計されたQAペアを自動生成するTimeLogic QA(TLQA)フレームワークを導入する。
この目的のために、TLQAは、既存のビデオデータセットからの時間的アノテーションと、論理理論から派生した時間的演算子を利用して、イベントシーケンスとその時間的関係の理解をテストする質問を構築する。
TLQAフレームワークは汎用的でスケーラブルで、時間的アクションセグメンテーションアノテーションによる既存のビデオアクションデータセットと、時間的シーングラフアノテーションによるビデオデータセットの両方を活用して、時間的論理的質問を自動的に生成する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、それぞれに2kと10kのQAペアを含む小さな(TLQA-S)と大きな(TLQA-L)という2つのVideoQAデータセットの亜種を生成します。
我々は、TLQAを用いて、その時間的論理的理解能力のベンチマークを行い、最先端のビデオQAモデルの包括的な評価を行う。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
関連論文リスト
- ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering [24.046966640011124]
ComplexTempQAは、1億以上の質問応答ペアからなる大規模なデータセットである。
このデータセットは、20年以上にわたる質問をカバーし、未一致のトピックを提供している。
論文 参考訳(メタデータ) (2024-06-07T12:01:59Z) - Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering [0.9712140341805068]
本稿では,実世界のビデオQAタスクに対して,Symbolic-world VideoQA (NSVideo-QA) というニューラルシンボリックなフレームワークを提案する。
NSVideo-QAは、構成質問に答える際の内部整合性を示し、ビデオQAタスクの論理推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-05T10:30:38Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering [73.11017833431313]
マルチモーダルなビデオ質問応答は、正しい回答を予測し、その質問に関連する時間的境界をローカライズすることを目的としている。
我々は、QAアノテーションのみを使用する、弱い教師付き質問基盤(WSQG)の設定を考案する。
フレームと字幕の対応をフレーム字幕(FS)に変換し,時間的注意スコアの最適化を支援する。
論文 参考訳(メタデータ) (2022-09-08T07:20:51Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。