論文の概要: Self-Supervised MultiModal Versatile Networks
- arxiv url: http://arxiv.org/abs/2006.16228v2
- Date: Fri, 30 Oct 2020 17:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:58:59.293713
- Title: Self-Supervised MultiModal Versatile Networks
- Title(参考訳): 自己監督型マルチモーダルバーサタイルネットワーク
- Authors: Jean-Baptiste Alayrac, Adri\`a Recasens, Rosalia Schneider, Relja
Arandjelovi\'c, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander
Dieleman, Andrew Zisserman
- Abstract要約: 我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
- 参考スコア(独自算出の注目度): 76.19886740072808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos are a rich source of multi-modal supervision. In this work, we learn
representations using self-supervision by leveraging three modalities naturally
present in videos: visual, audio and language streams. To this end, we
introduce the notion of a multimodal versatile network -- a network that can
ingest multiple modalities and whose representations enable downstream tasks in
multiple modalities. In particular, we explore how best to combine the
modalities, such that fine-grained representations of the visual and audio
modalities can be maintained, whilst also integrating text into a common
embedding. Driven by versatility, we also introduce a novel process of
deflation, so that the networks can be effortlessly applied to the visual data
in the form of video or a static image. We demonstrate how such networks
trained on large collections of unlabelled video data can be applied on video,
video-text, image and audio tasks. Equipped with these representations, we
obtain state-of-the-art performance on multiple challenging benchmarks
including UCF101, HMDB51, Kinetics600, AudioSet and ESC-50 when compared to
previous self-supervised work. Our models are publicly available.
- Abstract(参考訳): ビデオはマルチモーダル監視の豊富な情報源である。
本研究では,映像に自然に存在する3つのモダリティ(映像,音声,言語ストリーム)を活用して,自己スーパービジョンを用いて表現を学習する。
そこで本研究では,複数のモダリティを取り込み,複数のモダリティでダウンストリームタスクを可能にするネットワークであるマルチモーダル汎用ネットワークの概念を紹介する。
特に、視覚と音声のモーダルのきめ細かい表現を維持しながら、テキストを共通の埋め込みに統合するなど、モダリティを最もうまく組み合わせる方法について検討する。
また、汎用性によって駆動されるデフレの新たなプロセスを導入し、ビデオや静的画像の形式で、ネットワークを視覚データに適用できるようにします。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを適用可能であることを示す。
これらの表現を具備し,従来の自己監督型作業と比較して,UCF101,HMDB51,Kineetics600,AudioSet,ESC-50など,難易度の高い複数のベンチマークの最先端性能を得る。
私たちのモデルは公開されています。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Chat-UniVi: Unified Visual Representation Empowers Large Language Models
with Image and Video Understanding [59.325984869221074]
Chat-UniViは視覚言語モデルであり、画像やビデオを含む会話を解釈し、関与することができる。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文 参考訳(メタデータ) (2023-11-14T10:11:36Z) - Generative Pretraining in Multimodality [35.884551730519384]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval [34.343617836027725]
本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
論文 参考訳(メタデータ) (2022-08-16T10:51:37Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。