論文の概要: Locate before Answering: Answer Guided Question Localization for Video
Question Answering
- arxiv url: http://arxiv.org/abs/2210.02081v1
- Date: Wed, 5 Oct 2022 08:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:10:25.969734
- Title: Locate before Answering: Answer Guided Question Localization for Video
Question Answering
- Title(参考訳): 応答前の場所:ビデオ質問応答における解答誘導質問定位
- Authors: Tianwen Qian, Ran Cui, Jingjing Chen, Pai Peng, Xiaowei Guo, and
Yu-Gang Jiang
- Abstract要約: LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 67.49455494929458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering (VideoQA) is an essential task in vision-language
understanding, which has attracted numerous research attention recently.
Nevertheless, existing works mostly achieve promising performances on short
videos of duration within 15 seconds. For VideoQA on minute-level long-term
videos, those methods are likely to fail because of lacking the ability to deal
with noise and redundancy caused by scene changes and multiple actions in the
video. Considering the fact that the question often remains concentrated in a
short temporal range, we propose to first locate the question to a segment in
the video and then infer the answer using the located segment only. Under this
scheme, we propose "Locate before Answering" (LocAns), a novel approach that
integrates a question locator and an answer predictor into an end-to-end model.
During the training phase, the available answer label not only serves as the
supervision signal of the answer predictor, but also is used to generate pseudo
temporal labels for the question locator. Moreover, we design a decoupled
alternative training strategy to update the two modules separately. In the
experiments, LocAns achieves state-of-the-art performance on two modern
long-term VideoQA datasets NExT-QA and ActivityNet-QA, and its qualitative
examples show the reliable performance of the question localization.
- Abstract(参考訳): ビデオ質問応答(VideoQA)は視覚言語理解において重要な課題であり、近年多くの研究が注目されている。
それでも、既存の作品は15秒以内の短いビデオで有望なパフォーマンスを実現している。
分単位の長期ビデオのvideoqaでは、シーンの変更や複数のアクションによって生じるノイズや冗長性に対処する能力が欠如しているため、これらの方法は失敗する可能性が高い。
質問が短時間の時間範囲に集中していることを考えると,まずビデオ中のセグメントに質問を配置し,そのセグメントのみを用いて回答を推測することを提案する。
この方式では,質問ロケータと回答予測器をエンドツーエンドモデルに統合した新しいアプローチである「解答前位置」(locans)を提案する。
トレーニングフェーズの間、利用可能な回答ラベルは、回答予測器の監視信号として機能するだけでなく、質問ロケータの擬似時間ラベルを生成するためにも使用される。
さらに,2つのモジュールを別々に更新するために,分離した代替トレーニング戦略を設計する。
実験では、LocAnsは2つの最新の長期ビデオQAデータセットNExT-QAとActivityNet-QAの最先端のパフォーマンスを達成し、その定性的な例は質問ローカライゼーションの信頼性を示す。
関連論文リスト
- STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-01-08T14:01:59Z) - Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2023-08-18T07:45:10Z) - Discovering Spatio-Temporal Rationales for Video Question Answering [68.33688981540998]
本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする,複雑なビデオ質問応答(VideoQA)の解法を提案する。
本稿では,モーダル間相互作用を用いて質問クリティカルなモーメントやオブジェクトを適応的に収集する時空間合理化法を提案する。
また、STRをコアとし、新たな応答相互作用機構を基盤とするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:00:26Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering [73.11017833431313]
マルチモーダルなビデオ質問応答は、正しい回答を予測し、その質問に関連する時間的境界をローカライズすることを目的としている。
我々は、QAアノテーションのみを使用する、弱い教師付き質問基盤(WSQG)の設定を考案する。
フレームと字幕の対応をフレーム字幕(FS)に変換し,時間的注意スコアの最適化を支援する。
論文 参考訳(メタデータ) (2022-09-08T07:20:51Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。