論文の概要: From Representation to Reasoning: Towards both Evidence and Commonsense
Reasoning for Video Question-Answering
- arxiv url: http://arxiv.org/abs/2205.14895v1
- Date: Mon, 30 May 2022 07:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:48:20.360233
- Title: From Representation to Reasoning: Towards both Evidence and Commonsense
Reasoning for Video Question-Answering
- Title(参考訳): 表現から推論へ : ビデオ質問応答のためのエビデンスと常識推論の両立に向けて
- Authors: Jiangtong Li, Li Niu, Liqing Zhang
- Abstract要約: 本稿では,シーン記述(記述)からエビデンス推論(説明)まで,4種類の質問を含むCausal-VidQAについて述べる。
コモンセンス推論では、質問に答えて適切な理由を与える2段階のソリューションを設定した。
現状の手法は記述に強いが推論には弱い。
- 参考スコア(独自算出の注目度): 23.35795217396228
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video understanding has achieved great success in representation learning,
such as video caption, video object grounding, and video descriptive
question-answer. However, current methods still struggle on video reasoning,
including evidence reasoning and commonsense reasoning. To facilitate deeper
video understanding towards video reasoning, we present the task of
Causal-VidQA, which includes four types of questions ranging from scene
description (description) to evidence reasoning (explanation) and commonsense
reasoning (prediction and counterfactual). For commonsense reasoning, we set up
a two-step solution by answering the question and providing a proper reason.
Through extensive experiments on existing VideoQA methods, we find that the
state-of-the-art methods are strong in descriptions but weak in reasoning. We
hope that Causal-VidQA can guide the research of video understanding from
representation learning to deeper reasoning. The dataset and related resources
are available at \url{https://github.com/bcmi/Causal-VidQA.git}.
- Abstract(参考訳): ビデオ理解は、ビデオキャプション、ビデオオブジェクトグラウンド、ビデオ記述的質問応答など、表現学習において大きな成功を収めている。
しかし、現在の手法は、証拠推論や常識推論など、ビデオ推論に苦戦している。
映像推論に向けた深い映像理解を容易にするために,シーン記述(記述)からエビデンス推論(説明),コモンセンス推論(予測と反事実)までの4種類の質問を含むCausal-VidQAの課題を提案する。
コモンセンス推論では、質問に答えて適切な理由を与える2段階のソリューションを設定した。
既存のビデオQA手法に関する広範な実験により、最先端の手法は記述に強いが推論には弱いことが判明した。
我々は、Causal-VidQAが表現学習から深い推論まで、映像理解の研究を導くことを願っている。
データセットと関連するリソースは \url{https://github.com/bcmi/causal-vidqa.git} で入手できる。
関連論文リスト
- VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - YTCommentQA: Video Question Answerability in Instructional Videos [22.673000779017595]
本稿では,YouTubeから自然生成された質問を含むYTCommentQAデータセットを提案する。
データセットは、その回答可能性と、視覚的、スクリプト、あるいはその両方に答えるために必要なモダリティによって分類される。
論文 参考訳(メタデータ) (2024-01-30T14:18:37Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Knowledge-Based Visual Question Answering in Videos [36.23723122336639]
我々は,人気のシットコムについて,24,282対の質問応答対を用いたビデオデータセットであるKnowIT VQAを紹介する。
このデータセットは、視覚的、テキスト的、時間的コヒーレンス推論と知識に基づく質問を組み合わせる。
i) 知識の取り込みはビデオにおけるVQAの卓越した改善をもたらし, (ii) KnowIT VQAの性能は人間の精度よりかなり遅れている。
論文 参考訳(メタデータ) (2020-04-17T02:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。