論文の概要: Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA
- arxiv url: http://arxiv.org/abs/2005.06409v1
- Date: Wed, 13 May 2020 16:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 10:07:54.439923
- Title: Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA
- Title(参考訳): videoqaにおける時間的局所化のための集束マッチングとフレーム選択ゲーティング
- Authors: Hyounghun Kim, Zineng Tang, Mohit Bansal
- Abstract要約: 本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 96.10612095576333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos convey rich information. Dynamic spatio-temporal relationships between
people/objects, and diverse multimodal events are present in a video clip.
Hence, it is important to develop automated models that can accurately extract
such information from videos. Answering questions on videos is one of the tasks
which can evaluate such AI abilities. In this paper, we propose a video
question answering model which effectively integrates multi-modal input sources
and finds the temporally relevant information to answer questions.
Specifically, we first employ dense image captions to help identify objects and
their detailed salient regions and actions, and hence give the model useful
extra information (in explicit textual format to allow easier matching) for
answering questions. Moreover, our model is also comprised of dual-level
attention (word/object and frame level), multi-head self/cross-integration for
different sources (video and dense captions), and gates which pass more
relevant information to the classifier. Finally, we also cast the frame
selection problem as a multi-label classification task and introduce two loss
functions, In-andOut Frame Score Margin (IOFSM) and Balanced Binary
Cross-Entropy (BBCE), to better supervise the model with human importance
annotations. We evaluate our model on the challenging TVQA dataset, where each
of our model components provides significant gains, and our overall model
outperforms the state-of-the-art by a large margin (74.09% versus 70.52%). We
also present several word, object, and frame level visualization studies. Our
code is publicly available at:
https://github.com/hyounghk/VideoQADenseCapFrameGate-ACL2020
- Abstract(参考訳): ビデオは豊富な情報を伝える。
ビデオクリップには人・物間の動的時空間的関係と多様なマルチモーダルイベントが存在する。
したがって,映像から正確な情報を抽出できる自動モデルを開発することが重要である。
ビデオの質問に答えることは、このようなAI能力を評価するタスクの1つだ。
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連のある質問情報を求めるビデオ質問応答モデルを提案する。
具体的には,まず高密度画像キャプションを用いて,被写体とその詳細な局所領域や行動の識別を支援し,そのモデルが質問に対する回答に有用な追加情報(明示的なテキスト形式でのマッチング)を提供する。
さらに,本モデルは,二段階注意(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己/クロス統合,さらに,より関連性の高い情報を分類器に渡すゲートも構成する。
最後に、フレーム選択問題をマルチラベル分類タスクとして用い、人間の重要アノテーションでモデルをよりよく監視するために、IOFSM(In-andOut Frame Score Margin)とBBCE(Ba balanced Binary Cross-Entropy)という2つの損失関数を導入した。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,挑戦的なTVQAデータセット上で評価され,全体のモデルが最先端(74.09%対70.52%)よりも優れています。
また,単語,オブジェクト,フレームレベルの可視化研究も行った。
私たちのコードは、https://github.com/hyounghk/VideoQADenseCapFrameGate-ACL2020で公開されています。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。