論文の概要: Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
- arxiv url: http://arxiv.org/abs/2112.04446v1
- Date: Wed, 8 Dec 2021 18:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:35:45.149543
- Title: Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
- Title(参考訳): すべて一度に - ビデオ検索のためのマルチモーダル核融合変換器
- Authors: Nina Shvetsova, Brian Chen, Andrew Rouditchenko, Samuel Thomas, Brian
Kingsbury, Rogerio Feris, David Harwath, James Glass, Hilde Kuehne
- Abstract要約: ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
- 参考スコア(独自算出の注目度): 36.50847375135979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal learning from video data has seen increased attention recently as
it allows to train semantically meaningful embeddings without human annotation
enabling tasks like zero-shot retrieval and classification. In this work, we
present a multi-modal, modality agnostic fusion transformer approach that
learns to exchange information between multiple modalities, such as video,
audio, and text, and integrate them into a joined multi-modal representation to
obtain an embedding that aggregates multi-modal temporal information. We
propose to train the system with a combinatorial loss on everything at once,
single modalities as well as pairs of modalities, explicitly leaving out any
add-ons such as position or modality encoding. At test time, the resulting
model can process and fuse any number of input modalities. Moreover, the
implicit properties of the transformer allow to process inputs of different
lengths. To evaluate the proposed approach, we train the model on the large
scale HowTo100M dataset and evaluate the resulting embedding space on four
challenging benchmark datasets obtaining state-of-the-art results in zero-shot
video retrieval and zero-shot video action localization.
- Abstract(参考訳): ビデオデータからのマルチモーダル学習は、ゼロショット検索や分類といったタスクを人間のアノテーションなしで意味のある埋め込みを訓練できるため、近年注目を集めている。
本研究では,ビデオ,音声,テキストなどの複数のモダリティ間の情報を交換し,それらを結合したマルチモダリティ表現に統合することで,マルチモダリティな時間情報を集約した埋め込みを得るマルチモダリティ非依存型融合トランスフォーマー手法を提案する。
我々は,1つのモダリティだけでなく1対のモダリティも同時に組み合わせ損失を伴ってシステムを訓練し,位置やモダリティエンコーディングなどのアドオンを明示的に排除することを提案する。
テスト時には、結果のモデルは任意の数の入力モダリティを処理および融合することができる。
さらに、トランスの暗黙的特性により、異なる長さの入力を処理できる。
提案手法を評価するために,大規模なHowTo100Mデータセットを用いてモデルをトレーニングし,その結果の埋め込みスペースを,ゼロショットビデオ検索とゼロショットビデオアクションローカライゼーションの4つの挑戦的ベンチマークデータセット上で評価する。
関連論文リスト
- StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。