論文の概要: OmniVec2 -- A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning
- arxiv url: http://arxiv.org/abs/2507.13364v1
- Date: Sun, 06 Jul 2025 18:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-27 08:26:15.903824
- Title: OmniVec2 -- A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning
- Title(参考訳): OmniVec2 - 大規模マルチモーダル・マルチタスク学習のためのトランスフォーマーベースネットワーク
- Authors: Siddharth Srivastava, Gaurav Sharma,
- Abstract要約: 本稿では,新しいマルチモーダルマルチタスクネットワークと学習アルゴリズムを提案する。
この方法は、約12の異なるモダリティからデータを取り込み得る。
モダリティ固有のタスクヘッドを各タスクに組み込むことで、マルチモーダルとマルチタスクのシナリオに対処する。
- 参考スコア(独自算出の注目度): 23.720996132491734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel multimodal multitask network and associated training algorithm. The method is capable of ingesting data from approximately 12 different modalities namely image, video, audio, text, depth, point cloud, time series, tabular, graph, X-ray, infrared, IMU, and hyperspectral. The proposed approach utilizes modality specialized tokenizers, a shared transformer architecture, and cross-attention mechanisms to project the data from different modalities into a unified embedding space. It addresses multimodal and multitask scenarios by incorporating modality-specific task heads for different tasks in respective modalities. We propose a novel pretraining strategy with iterative modality switching to initialize the network, and a training algorithm which trades off fully joint training over all modalities, with training on pairs of modalities at a time. We provide comprehensive evaluation across 25 datasets from 12 modalities and show state of the art performances, demonstrating the effectiveness of the proposed architecture, pretraining strategy and adapted multitask training.
- Abstract(参考訳): 本稿では,新しいマルチモーダルマルチタスクネットワークと学習アルゴリズムを提案する。
この方法は、画像、ビデオ、音声、テキスト、深さ、点雲、時系列、表、グラフ、X線、赤外線、IMU、ハイパースペクトルなど、およそ12種類のモードからデータを取り込み得る。
提案手法では、モダリティ専用トークンライザ、共有トランスフォーマーアーキテクチャ、およびクロスアテンション機構を用いて、異なるモダリティから統一的な埋め込み空間にデータを投影する。
モダリティ固有のタスクヘッドを各タスクに組み込むことで、マルチモーダルとマルチタスクのシナリオに対処する。
ネットワークを初期化するために反復的モダリティを切り替えた新しい事前学習戦略と、全てのモダリティに対して完全に協調的なトレーニングを同時に行うトレーニングアルゴリズムを提案する。
提案したアーキテクチャの有効性,事前学習戦略,適応型マルチタスクトレーニングを実証し,12のモダリティから25のデータセットを包括的に評価し,最先端のパフォーマンスを示す。
関連論文リスト
- MultiMAE Meets Earth Observation: Pre-training Multi-modal Multi-task Masked Autoencoders for Earth Observation Tasks [11.359741665798195]
本稿では,地球観測(EO)データに対する,より柔軟なマルチモーダル・マルチタスク事前学習戦略について検討する。
具体的には,マルチモーダルなマルチタスク・マスケッド・オートエンコーダ(MultiMAE)を採用し,多様な入力モダリティを再構成することによって事前学習を行う。
提案手法は,モダリティ固有の事前学習モデルを必要とせず,多様な入力構成を処理し,高い柔軟性を示す。
論文 参考訳(メタデータ) (2025-05-20T22:24:36Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - OmniVec: Learning robust representations with cross modal sharing [28.023214572340336]
複数のタスクを複数のモードで,統一されたアーキテクチャで学習する手法を提案する。
提案するネットワークはタスク固有エンコーダ(中央の共通トランク)とタスク固有予測ヘッドで構成される。
私たちは、視覚、オーディオ、テキスト、3Dなどの主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
論文 参考訳(メタデータ) (2023-11-07T14:00:09Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Dynamic Task Weighting Methods for Multi-task Networks in Autonomous
Driving Systems [10.625400639764734]
ディープマルチタスクネットワークは、自動運転システムに特に関心がある。
進化的メタラーニングとタスクベースの選択的バックプロパゲーションを組み合わせた新しい手法を提案する。
提案手法は,2タスクアプリケーションにおいて,最先端の手法よりも有意差がある。
論文 参考訳(メタデータ) (2020-01-07T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。