論文の概要: Parameter Efficient Multimodal Transformers for Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2012.04124v1
- Date: Tue, 8 Dec 2020 00:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 05:01:46.730700
- Title: Parameter Efficient Multimodal Transformers for Video Representation
Learning
- Title(参考訳): 映像表現学習のためのパラメータ効率の高いマルチモーダルトランスフォーマー
- Authors: Sangho Lee, Youngjae Yu, Gunhee Kim, Thomas Breuel, Jan Kautz, Yale
Song
- Abstract要約: 本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
- 参考スコア(独自算出の注目度): 108.8517364784009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of Transformers in the language domain has motivated
adapting it to a multimodal setting, where a new visual model is trained in
tandem with an already pretrained language model. However, due to the excessive
memory requirements from Transformers, existing work typically fixes the
language model and train only the vision module, which limits its ability to
learn cross-modal information in an end-to-end manner. In this work, we focus
on reducing the parameters of multimodal Transformers in the context of
audio-visual video representation learning. We alleviate the high memory
requirement by sharing the weights of Transformers across layers and
modalities; we decompose the Transformer into modality-specific and
modality-shared parts so that the model learns the dynamics of each modality
both individually and together, and propose a novel parameter sharing scheme
based on low-rank approximation. We show that our approach reduces parameters
up to 80$\%$, allowing us to train our model end-to-end from scratch. We also
propose a negative sampling approach based on an instance similarity measured
on the CNN embedding space that our model learns with the Transformers. To
demonstrate our approach, we pretrain our model on 30-second clips from
Kinetics-700 and transfer it to audio-visual classification tasks.
- Abstract(参考訳): 言語領域におけるトランスフォーマーの最近の成功は、それをマルチモーダルな設定に適応させることを動機付けている。
しかし、トランスフォーマーからの過剰なメモリ要求のため、既存の作業は言語モデルを修正し、視覚モジュールのみを訓練する。
本研究では,音声映像表現学習の文脈におけるマルチモーダルトランスフォーマのパラメータ低減に着目する。
我々は,トランスフォーマーの重みを層やモダリティ間で共有することで高いメモリ要求を緩和し,トランスフォーマーをモダリティ固有部分とモダリティ共有部分に分解し,各モダリティのダイナミクスを個々に学習し,低ランク近似に基づく新しいパラメータ共有方式を提案する。
当社のアプローチはパラメータを最大80$\%$まで削減し、エンドツーエンドでモデルをスクラッチからトレーニングできることを示しています。
また,モデルがトランスフォーマーで学習するcnn埋め込み空間上で測定したインスタンス類似性に基づく負サンプリング手法を提案する。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,音声視覚分類タスクに転送する。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文 参考訳(メタデータ) (2024-03-14T17:59:14Z) - Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities [56.666806962214565]
我々は,他のモダリティからの無関係なデータを用いて,特定のモダリティのトランスフォーマーを改善することを提案する。
我々は、他のモダリティのデータで訓練された補助変圧器を使用し、2つのモデルのコンポーネントを接続するための経路を構築している。
我々は、他のモダリティの無関係なデータを用いて、顕著で一貫したパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-01-25T18:59:58Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。