論文の概要: Attend What You Need: Motion-Appearance Synergistic Networks for Video
Question Answering
- arxiv url: http://arxiv.org/abs/2106.10446v1
- Date: Sat, 19 Jun 2021 07:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:59:05.992360
- Title: Attend What You Need: Motion-Appearance Synergistic Networks for Video
Question Answering
- Title(参考訳): 必要なこと:ビデオ質問応答のためのモーション・アレンジス・シナジスティック・ネットワーク
- Authors: Ahjeong Seo, Gi-Cheon Kang, Joonhan Park, Byoung-Tak Zhang
- Abstract要約: ビデオ質問回答(英語: Video Question Answering)は、AIエージェントがビデオに根ざした質問に答えるタスクである。
動作情報と外観情報に基づく2つのクロスモーダル特徴を組み込んだMASN(Motion-Appearance Synergistic Networks)を提案する。
MASNは、TGIF-QAデータセットとMSVD-QAデータセット上で、最先端のパフォーマンスを新たに達成する。
- 参考スコア(独自算出の注目度): 17.284486564782636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering is a task which requires an AI agent to answer
questions grounded in video. This task entails three key challenges: (1)
understand the intention of various questions, (2) capturing various elements
of the input video (e.g., object, action, causality), and (3) cross-modal
grounding between language and vision information. We propose Motion-Appearance
Synergistic Networks (MASN), which embed two cross-modal features grounded on
motion and appearance information and selectively utilize them depending on the
question's intentions. MASN consists of a motion module, an appearance module,
and a motion-appearance fusion module. The motion module computes the
action-oriented cross-modal joint representations, while the appearance module
focuses on the appearance aspect of the input video. Finally, the
motion-appearance fusion module takes each output of the motion module and the
appearance module as input, and performs question-guided fusion. As a result,
MASN achieves new state-of-the-art performance on the TGIF-QA and MSVD-QA
datasets. We also conduct qualitative analysis by visualizing the inference
results of MASN. The code is available at
https://github.com/ahjeongseo/MASN-pytorch.
- Abstract(参考訳): ビデオ質問回答(英語: Video Question Answering)は、AIエージェントがビデオに根ざした質問に答えるタスクである。
本課題は,(1) 様々な質問の意図を理解すること,(2) 入力ビデオの様々な要素(例えば,対象,行動,因果関係)を捉えること,(3) 言語と視覚情報の相互的基盤化という3つの課題を含む。
動作情報と外観情報に基づく2つのクロスモーダル特徴を組み込んだMASN(Motion-Appearance Synergistic Networks)を提案する。
MASNは、モーションモジュール、外観モジュール、およびモーション出現融合モジュールで構成される。
動作モジュールはアクション指向のクロスモーダルな関節表現を演算し、外観モジュールは入力ビデオの外観的側面に焦点を当てる。
最後に、モーション出現融合モジュールは、モーションモジュールと外観モジュールの各出力を入力として、質問誘導融合を行う。
その結果、MASNは、TGIF-QAおよびMSVD-QAデータセット上で、最先端のパフォーマンスを新たに達成した。
また,MASNの推測結果を可視化して定性分析を行う。
コードはhttps://github.com/ahjeongseo/masn-pytorchで入手できる。
関連論文リスト
- Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation [4.386035726986601]
3D-to-2Dプロジェクションにおける動作と意味的特徴の有効活用と情報損失の回避は依然として重要な課題である。
点雲の異なる2次元表現からモーションセマンティックな特徴を融合させることにより,新しい多視点MOSモデル(MV-MOS)を提案する。
提案するマルチブランチ融合MOSフレームワークの有効性を総合実験により検証した。
論文 参考訳(メタデータ) (2024-08-20T07:30:00Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Temporal Pyramid Transformer with Multimodal Interaction for Video
Question Answering [13.805714443766236]
ビデオ質問応答(VideoQA)は、視覚的理解と自然言語理解のマルチモーダルな組み合わせを考えると困難である。
本稿では,ビデオQAのためのマルチモーダルインタラクションを備えた時間ピラミッド変換器(TPT)モデルを提案する。
論文 参考訳(メタデータ) (2021-09-10T08:31:58Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。