論文の概要: TG-VQA: Ternary Game of Video Question Answering
- arxiv url: http://arxiv.org/abs/2305.10049v1
- Date: Wed, 17 May 2023 08:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 16:58:22.359441
- Title: TG-VQA: Ternary Game of Video Question Answering
- Title(参考訳): TG-VQA:ビデオ質問に答える第3のゲーム
- Authors: Hao Li, Peng Jin, Zesen Cheng, Songyang Zhang, Kai Chen, Zhennan Wang,
Chang Liu, Jie Chen
- Abstract要約: ビデオ質問応答は、その中のアライメントセマンティクスを推論することで、ビデオコンテンツに関する質問に答えることを目的としている。
本研究では,特定のインタラクション戦略を持つ複数のプレイヤー間の複雑な関係をシミュレートするゲーム理論を革新的に活用する。
具体的には,ビデオQA固有のインタラクション戦略を慎重に設計し,ラベルに重きを置くことなく,微粒な視覚言語アライメントラベルを数学的に生成することができる。
- 参考スコア(独自算出の注目度): 33.180788803602084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video question answering aims at answering a question about the video content
by reasoning the alignment semantics within them. However, since relying
heavily on human instructions, i.e., annotations or priors, current contrastive
learning-based VideoQA methods remains challenging to perform fine-grained
visual-linguistic alignments. In this work, we innovatively resort to game
theory, which can simulate complicated relationships among multiple players
with specific interaction strategies, e.g., video, question, and answer as
ternary players, to achieve fine-grained alignment for VideoQA task.
Specifically, we carefully design a VideoQA-specific interaction strategy to
tailor the characteristics of VideoQA, which can mathematically generate the
fine-grained visual-linguistic alignment label without label-intensive efforts.
Our TG-VQA outperforms existing state-of-the-art by a large margin (more than
5%) on long-term and short-term VideoQA datasets, verifying its effectiveness
and generalization ability. Thanks to the guidance of game-theoretic
interaction, our model impressively convergences well on limited data (${10}^4
~videos$), surpassing most of those pre-trained on large-scale data
($10^7~videos$).
- Abstract(参考訳): ビデオ質問応答は、その中のアライメントセマンティクスを推論することで、ビデオコンテンツに関する質問に答えることを目的としている。
しかしながら、人間の指示、すなわちアノテーションや事前に大きく依存しているため、現在のコントラスト学習に基づくビデオQA法は、きめ細かい視覚言語的アライメントの実行が困難である。
本研究では,ビデオQAタスクの微妙なアライメントを実現するために,ゲーム理論を革新的に活用し,ビデオ,質問,回答といった特定のインタラクション戦略を持つ複数のプレイヤー間の複雑な関係をシミュレートする。
具体的には,ビデオQA固有のインタラクション戦略を慎重に設計し,ラベルに重きを置くことなく,微粒な視覚言語アライメントラベルを数学的に生成することができる。
我々のTG-VQAは、その有効性と一般化能力を検証し、長期および短期のVideoQAデータセットにおいて、既存の最先端技術(5%以上)よりも優れています。
ゲーム理論的相互作用の指導により、我々のモデルは限られたデータ({10}^4 ~videos$)に驚くほど収束し、大規模データ(10^7~videos$)で事前学習された多くのデータを上回る。
関連論文リスト
- Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex
and Professional Sports [90.79212954022218]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。