論文の概要: Video Question Answering with Phrases via Semantic Roles
- arxiv url: http://arxiv.org/abs/2104.03762v1
- Date: Thu, 8 Apr 2021 13:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:19:44.565789
- Title: Video Question Answering with Phrases via Semantic Roles
- Title(参考訳): 意味的役割によるフレーズによるビデオ質問応答
- Authors: Arka Sadhu, Kan Chen, Ram Nevatia
- Abstract要約: ビデオ質問回答(VidQA)評価指標は、単一の単語の回答や、固定されたフレーズセットからフレーズを選択することに限定されています。
我々は、ビデオ記述から派生した意味的役割を利用して、特定のフレーズを隠ぺいし、vidqaを補足するvidqapを導入する。
- 参考スコア(独自算出の注目度): 40.72894813542082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VidQA) evaluation metrics have been limited to a
single-word answer or selecting a phrase from a fixed set of phrases. These
metrics limit the VidQA models' application scenario. In this work, we leverage
semantic roles derived from video descriptions to mask out certain phrases, to
introduce VidQAP which poses VidQA as a fill-in-the-phrase task. To enable
evaluation of answer phrases, we compute the relative improvement of the
predicted answer compared to an empty string. To reduce the influence of
language bias in VidQA datasets, we retrieve a video having a different answer
for the same question. To facilitate research, we construct ActivityNet-SRL-QA
and Charades-SRL-QA and benchmark them by extending three vision-language
models. We further perform extensive analysis and ablative studies to guide
future work.
- Abstract(参考訳): Video Question Answering (VidQA) 評価指標は、1ワードの回答に限られている。
これらのメトリクスは、VidQAモデルのアプリケーションシナリオを制限する。
本研究では、ビデオ記述から派生したセマンティックな役割を利用して特定のフレーズをマスキングし、VidQAを補足タスクとするVidQAPを導入する。
回答句の評価を可能にするために,予測した回答を空文字列と比較して相対的に改善する計算を行う。
VidQAデータセットにおける言語バイアスの影響を低減するため、同じ質問に対して異なる回答を持つ動画を検索する。
研究を容易にするために,ActivityNet-SRL-QAとCharades-SRL-QAを構築し,それを3つの視覚言語モデルを拡張してベンチマークする。
さらに,今後の課題を導くために,広範な解析・アブレーション研究を行う。
関連論文リスト
- Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Large Language Models are Temporal and Causal Reasoners for Video
Question Answering [16.722148605611146]
大規模言語モデル(LLM)は、幅広い自然言語理解および生成タスクにおいて顕著なパフォーマンスを示している。
本稿では、新しいフレームワークFlipped-VQAを提案し、$langle$V, Q, A$rangle$ tripletのすべての組み合わせを予測することをモデルに推奨する。
Flipped-VQAは言語的ショートカットの活用を促進させるだけでなく、言語バイアスを緩和する。
論文 参考訳(メタデータ) (2023-10-24T11:44:39Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2023-08-18T07:45:10Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。