論文の概要: OmniVec: Learning robust representations with cross modal sharing
- arxiv url: http://arxiv.org/abs/2311.05709v1
- Date: Tue, 7 Nov 2023 14:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-19 14:29:45.749425
- Title: OmniVec: Learning robust representations with cross modal sharing
- Title(参考訳): OmniVec: クロスモーダル共有による堅牢な表現の学習
- Authors: Siddharth Srivastava, Gaurav Sharma
- Abstract要約: 複数のタスクを複数のモードで,統一されたアーキテクチャで学習する手法を提案する。
提案するネットワークはタスク固有エンコーダ(中央の共通トランク)とタスク固有予測ヘッドで構成される。
私たちは、視覚、オーディオ、テキスト、3Dなどの主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
- 参考スコア(独自算出の注目度): 28.023214572340336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Majority of research in learning based methods has been towards designing and
training networks for specific tasks. However, many of the learning based
tasks, across modalities, share commonalities and could be potentially tackled
in a joint framework. We present an approach in such direction, to learn
multiple tasks, in multiple modalities, with a unified architecture. The
proposed network is composed of task specific encoders, a common trunk in the
middle, followed by task specific prediction heads. We first pre-train it by
self-supervised masked training, followed by sequential training for the
different tasks. We train the network on all major modalities, e.g.\ visual,
audio, text and 3D, and report results on $22$ diverse and challenging public
benchmarks. We demonstrate empirically that, using a joint network to train
across modalities leads to meaningful information sharing and this allows us to
achieve state-of-the-art results on most of the benchmarks. We also show
generalization of the trained network on cross-modal tasks as well as unseen
datasets and tasks.
- Abstract(参考訳): 学習に基づく手法の研究の大半は、特定のタスクのためのネットワークの設計とトレーニングを目的としている。
しかし、学習ベースのタスクの多くは、モダリティを越えて共通点を共有し、共同フレームワークで取り組める可能性がある。
我々は,複数のタスク,複数のモダリティ,統一アーキテクチャを学ぶためのアプローチを提案する。
提案するネットワークはタスク固有エンコーダ,中央に共通トランク,次いでタスク固有予測ヘッドで構成される。
まず,自己教師付きマスクトレーニングで事前トレーニングを行い,その後,各タスクの逐次トレーニングを行った。
ビジュアル、オーディオ、テキスト、3Dなど、すべての主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
共同ネットワークを使ってモダリティをトレーニングすることで意味のある情報共有を実現し、その結果、ほとんどのベンチマークで最先端の結果が得られます。
クロスモーダルなタスクでトレーニングされたネットワークの一般化や、見当たらないデータセットやタスクも示します。
関連論文リスト
- YOLOR-Based Multi-Task Learning [12.5920336941241]
マルチタスク学習(MTL)は、単一のモデルを用いて複数のタスクを学習し、一般化と共有セマンティクスを前提として、これらすべてのタスクを共同で改善することを目的としている。
マルチタスクに特化したネットワークアーキテクチャYOLOR(You Only Learn One Representation)の構築を提案する。
本手法は,低パラメータ数を維持しつつ,事前学習を行わずに,全てのタスクにおける競合性能を実現する。
論文 参考訳(メタデータ) (2023-09-29T01:42:21Z) - Modular Approach to Machine Reading Comprehension: Mixture of Task-Aware
Experts [0.5801044612920815]
比較的小さなデータセット上で、機械読解のためのタスク認識エキスパートネットワークの混合について述べる。
我々は、常識学習の問題に焦点をあて、共通基盤知識を強制する。
我々は近年のマルチタスクとトランスファーラーニングの進歩に注目する。
論文 参考訳(メタデータ) (2022-10-04T17:13:41Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - PaRT: Parallel Learning Towards Robust and Transparent AI [4.160969852186451]
本稿では,堅牢で透明なAIのための並列学習手法を提案する。
ディープニューラルネットワークは複数のタスクで並列にトレーニングされ、各タスクはネットワークリソースのサブセットでのみトレーニングされる。
ネットワークは、共有表現を通じて、他のタスクのタスクから学習した知識を実際に利用していることを示す。
論文 参考訳(メタデータ) (2022-01-24T09:03:28Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。
深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文 参考訳(メタデータ) (2020-09-10T19:31:04Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。