論文の概要: Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
- arxiv url: http://arxiv.org/abs/2401.14405v2
- Date: Mon, 18 Mar 2024 08:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:12:30.837211
- Title: Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities
- Title(参考訳): マルチモーダルパス:他のモーダルからの無関係データによるトランスフォーマーの改善
- Authors: Yiyuan Zhang, Xiaohan Ding, Kaixiong Gong, Yixiao Ge, Ying Shan, Xiangyu Yue,
- Abstract要約: 我々は,他のモダリティからの無関係なデータを用いて,特定のモダリティのトランスフォーマーを改善することを提案する。
我々は、他のモダリティのデータで訓練された補助変圧器を使用し、2つのモデルのコンポーネントを接続するための経路を構築している。
我々は、他のモダリティの無関係なデータを用いて、顕著で一貫したパフォーマンス改善を観察する。
- 参考スコア(独自算出の注目度): 56.666806962214565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to improve transformers of a specific modality with irrelevant data from other modalities, e.g., improve an ImageNet model with audio or point cloud datasets. We would like to highlight that the data samples of the target modality are irrelevant to the other modalities, which distinguishes our method from other works utilizing paired (e.g., CLIP) or interleaved data of different modalities. We propose a methodology named Multimodal Pathway - given a target modality and a transformer designed for it, we use an auxiliary transformer trained with data of another modality and construct pathways to connect components of the two models so that data of the target modality can be processed by both models. In this way, we utilize the universal sequence-to-sequence modeling abilities of transformers obtained from two modalities. As a concrete implementation, we use a modality-specific tokenizer and task-specific head as usual but utilize the transformer blocks of the auxiliary model via a proposed method named Cross-Modal Re-parameterization, which exploits the auxiliary weights without any inference costs. On the image, point cloud, video, and audio recognition tasks, we observe significant and consistent performance improvements with irrelevant data from other modalities. The code and models are available at https://github.com/AILab-CVC/M2PT.
- Abstract(参考訳): 音声やポイントクラウドのデータセットを用いたImageNetモデルの改善など、他のモダリティから無関係なデータを用いて、特定のモダリティの変換器を改善することを提案する。
対象のモダリティのデータサンプルが他のモダリティとは無関係であることを強調したい。これは、ペア(例えば、CLIP)や異なるモダリティのインターリーブされたデータを利用する他の作業との違いである。
目的のモダリティとそれ用に設計されたトランスフォーマーを前提として、他のモダリティのデータで訓練された補助トランスフォーマーを用いて、2つのモデルのコンポーネントを接続し、目的のモダリティのデータを両モデルで処理できるように構成する手法を提案する。
このようにして、2つのモードから得られる変換器の普遍的なシーケンス・ツー・シーケンス・モデリング能力を利用する。
具体的実装として、モーダリティ特化トークンとタスク特化ヘッドを用いるが、提案手法であるクロスモーダル再パラメータ化(Cross-Modal Re-parameterization)により補助モデルの変圧ブロックを利用する。
画像,ポイントクラウド,ビデオ,および音声認識タスクでは,他のモダリティから無関係なデータを用いて,顕著かつ一貫したパフォーマンス向上を観察する。
コードとモデルはhttps://github.com/AILab-CVC/M2PTで公開されている。
関連論文リスト
- MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition [5.311735227179715]
トランスフォーマーモデルは、NLPや分類など、多くのアプリケーションで最先端の結果を得た。
動的手ジェスチャー認識のための新しいGestFormerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-05-18T05:16:32Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.0913507142036]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。
1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。
共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (2021-11-25T10:01:05Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。