論文の概要: Self-Supervised MultiModal Versatile Networks
- arxiv url: http://arxiv.org/abs/2006.16228v2
- Date: Fri, 30 Oct 2020 17:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:58:59.293713
- Title: Self-Supervised MultiModal Versatile Networks
- Title(参考訳): 自己監督型マルチモーダルバーサタイルネットワーク
- Authors: Jean-Baptiste Alayrac, Adri\`a Recasens, Rosalia Schneider, Relja
Arandjelovi\'c, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander
Dieleman, Andrew Zisserman
- Abstract要約: 我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
- 参考スコア(独自算出の注目度): 76.19886740072808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos are a rich source of multi-modal supervision. In this work, we learn
representations using self-supervision by leveraging three modalities naturally
present in videos: visual, audio and language streams. To this end, we
introduce the notion of a multimodal versatile network -- a network that can
ingest multiple modalities and whose representations enable downstream tasks in
multiple modalities. In particular, we explore how best to combine the
modalities, such that fine-grained representations of the visual and audio
modalities can be maintained, whilst also integrating text into a common
embedding. Driven by versatility, we also introduce a novel process of
deflation, so that the networks can be effortlessly applied to the visual data
in the form of video or a static image. We demonstrate how such networks
trained on large collections of unlabelled video data can be applied on video,
video-text, image and audio tasks. Equipped with these representations, we
obtain state-of-the-art performance on multiple challenging benchmarks
including UCF101, HMDB51, Kinetics600, AudioSet and ESC-50 when compared to
previous self-supervised work. Our models are publicly available.
- Abstract(参考訳): ビデオはマルチモーダル監視の豊富な情報源である。
本研究では,映像に自然に存在する3つのモダリティ(映像,音声,言語ストリーム)を活用して,自己スーパービジョンを用いて表現を学習する。
そこで本研究では,複数のモダリティを取り込み,複数のモダリティでダウンストリームタスクを可能にするネットワークであるマルチモーダル汎用ネットワークの概念を紹介する。
特に、視覚と音声のモーダルのきめ細かい表現を維持しながら、テキストを共通の埋め込みに統合するなど、モダリティを最もうまく組み合わせる方法について検討する。
また、汎用性によって駆動されるデフレの新たなプロセスを導入し、ビデオや静的画像の形式で、ネットワークを視覚データに適用できるようにします。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを適用可能であることを示す。
これらの表現を具備し,従来の自己監督型作業と比較して,UCF101,HMDB51,Kineetics600,AudioSet,ESC-50など,難易度の高い複数のベンチマークの最先端性能を得る。
私たちのモデルは公開されています。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding [55.65727739645824]
Chat-UniViは、画像やビデオを含む会話を解釈し、関与できる統一ビジョン言語モデルである。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文 参考訳(メタデータ) (2023-11-14T10:11:36Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。