論文の概要: Deep Multimodal Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2004.12070v2
- Date: Sun, 11 Oct 2020 03:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 21:07:57.465686
- Title: Deep Multimodal Neural Architecture Search
- Title(参考訳): 深層多モードニューラルアーキテクチャ探索
- Authors: Zhou Yu, Yuhao Cui, Jun Yu, Meng Wang, Dacheng Tao, Qi Tian
- Abstract要約: 様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
- 参考スコア(独自算出の注目度): 178.35131768344246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing effective neural networks is fundamentally important in deep
multimodal learning. Most existing works focus on a single task and design
neural architectures manually, which are highly task-specific and hard to
generalize to different tasks. In this paper, we devise a generalized deep
multimodal neural architecture search (MMnas) framework for various multimodal
learning tasks. Given multimodal input, we first define a set of primitive
operations, and then construct a deep encoder-decoder based unified backbone,
where each encoder or decoder block corresponds to an operation searched from a
predefined operation pool. On top of the unified backbone, we attach
task-specific heads to tackle different multimodal learning tasks. By using a
gradient-based NAS algorithm, the optimal architectures for different tasks are
learned efficiently. Extensive ablation studies, comprehensive analysis, and
comparative experimental results show that the obtained MMnasNet significantly
outperforms existing state-of-the-art approaches across three multimodal
learning tasks (over five datasets), including visual question answering,
image-text matching, and visual grounding.
- Abstract(参考訳): 効果的なニューラルネットワークの設計は、深層マルチモーダル学習において基本的に重要である。
既存の作品のほとんどは単一のタスクに焦点を合わせ、ニューラルネットワークアーキテクチャを手作業で設計している。
本稿では,様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルネットワーク探索(MMnas)フレームワークを提案する。
マルチモーダル入力が与えられると、まずプリミティブ操作の集合を定義し、次にディープエンコーダ-デコーダベースの統一バックボーンを構築し、各エンコーダまたはデコーダブロックは、事前定義された操作プールから検索された操作に対応する。
統合バックボーンに加えて、さまざまなマルチモーダル学習タスクに取り組むために、タスク固有のヘッドをアタッチします。
勾配に基づくNASアルゴリズムを用いて、異なるタスクに最適なアーキテクチャを効率よく学習する。
広範囲にわたるアブレーション研究、包括的分析、および比較実験の結果、得られたMMnasNetは、視覚的質問応答、画像テキストマッチング、視覚的接地を含む3つのマルチモーダル学習タスク(5つ以上のデータセット)において、既存の最先端のアプローチを著しく上回っている。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - OmniVec: Learning robust representations with cross modal sharing [28.023214572340336]
複数のタスクを複数のモードで,統一されたアーキテクチャで学習する手法を提案する。
提案するネットワークはタスク固有エンコーダ(中央の共通トランク)とタスク固有予測ヘッドで構成される。
私たちは、視覚、オーディオ、テキスト、3Dなどの主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。
論文 参考訳(メタデータ) (2023-11-07T14:00:09Z) - Dynamic Neural Network for Multi-Task Learning Searching across Diverse
Network Topologies [14.574399133024594]
多様なグラフトポロジを持つ複数のタスクに対して最適化された構造を探索する新しいMTLフレームワークを提案する。
我々は、トポロジ的に多様なタスク適応構造を構築するために、読み出し/読み出し層を備えたDAGベースの制限付き中央ネットワークを設計する。
論文 参考訳(メタデータ) (2023-03-13T05:01:50Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - NAS-Navigator: Visual Steering for Explainable One-Shot Deep Neural
Network Synthesis [53.106414896248246]
本稿では,分析者がドメイン知識を注入することで,解のサブグラフ空間を効果的に構築し,ネットワーク探索をガイドするフレームワークを提案する。
このテクニックを反復的に適用することで、アナリストは、与えられたアプリケーションに対して最高のパフォーマンスのニューラルネットワークアーキテクチャに収束することができる。
論文 参考訳(メタデータ) (2020-09-28T01:48:45Z) - Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。
深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文 参考訳(メタデータ) (2020-09-10T19:31:04Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。