Fugu-MT 論文翻訳(概要): BM-NAS: Bilevel Multimodal Neural Architecture Search

論文の概要: BM-NAS: Bilevel Multimodal Neural Architecture Search

arxiv url: http://arxiv.org/abs/2104.09379v1
Date: Mon, 19 Apr 2021 15:09:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 14:26:05.032331
Title: BM-NAS: Bilevel Multimodal Neural Architecture Search
Title（参考訳）: bm-nas:bilevel multimodal neural architecture search
Authors: Yihang Yin, Siyu Huang, Xiang Zhang, Dejing Dou
Abstract要約: 本稿では,Bilevel Multimodal Neural Architecture Search (BM-NAS)フレームワークを提案する。マルチモーダル融合モデルのアーキテクチャを2レベル探索方式で完全に検索可能にします。 BM-NASは探索時間が少なく、モデルパラメータも少ない競争性能を実現している。
参考スコア（独自算出の注目度）: 30.472605201814428
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks (DNNs) have shown superior performances on various multimodal learning problems. However, it often requires huge efforts to adapt DNNs to individual multimodal tasks by manually engineering unimodal features and designing multimodal feature fusion strategies. This paper proposes Bilevel Multimodal Neural Architecture Search (BM-NAS) framework, which makes the architecture of multimodal fusion models fully searchable via a bilevel searching scheme. At the upper level, BM-NAS selects the inter/intra-modal feature pairs from the pretrained unimodal backbones. At the lower level, BM-NAS learns the fusion strategy for each feature pair, which is a combination of predefined primitive operations. The primitive operations are elaborately designed and they can be flexibly combined to accommodate various effective feature fusion modules such as multi-head attention (Transformer) and Attention on Attention (AoA). Experimental results on three multimodal tasks demonstrate the effectiveness and efficiency of the proposed BM-NAS framework. BM-NAS achieves competitive performances with much less search time and fewer model parameters in comparison with the existing generalized multimodal NAS methods.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、様々なマルチモーダル学習問題において優れた性能を示している。しかし、dnnを個別のマルチモーダルタスクに適応させるためには、手動でユニモーダルな特徴を設計、マルチモーダルな特徴融合戦略を設計することがしばしば必要となる。本稿では,バイレベル探索方式を用いて,マルチモーダル融合モデルのアーキテクチャを完全に検索可能にする,バイレベル・マルチモーダル・ニューラル・アーキテクチャ・サーチ(BM-NAS)フレームワークを提案する。上層レベルでは、bm-nasは事前訓練されたユニモーダルバックボーンからインター・イントラモーダル特徴対を選択する。下層では、BM-NASは事前に定義されたプリミティブ演算の組み合わせである各特徴ペアの融合戦略を学習する。プリミティブ操作は精巧に設計されており、マルチヘッドアテンション(Transformer)やアテンション・オン・アテンション(AoA)といった様々な効果的な機能融合モジュールに対応するために柔軟に組み合わせることができる。 3つのマルチモーダルタスクの実験結果は,提案するbm-nasフレームワークの有効性と効率を示す。 BM-NASは,既存の汎用マルチモーダルNAS法と比較して,探索時間が少なく,モデルパラメータも少ない競争性能を実現している。

関連論文リスト

MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models [7.134682404460003]
そこで我々は、MoE(Mixture of Experts)をモダリティにまたがる統一多方向コネクタとして利用する、新しいトレーニングフレームワークAlt-MoEを紹介する。我々の手法は、いくつかの優れたユニモーダルモデルで検証されている。
論文参考訳（メタデータ） (2024-09-09T10:40:50Z)
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [16.96824902454355]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文参考訳（メタデータ） (2024-08-06T07:19:51Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
An Evolutionary Network Architecture Search Framework with Adaptive Multimodal Fusion for Hand Gesture Recognition [5.001653808609435]
適応型マルチモデル融合(AMF-ENAS)を用いた進化的ネットワークアーキテクチャ探索フレームワークを提案する。 AMF-ENASは、Ninapro DB2、DB3、DB7データセットの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-27T02:39:23Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices [0.4915744683251151]
本稿では,資源制約のあるデバイス上でハードウェアを意識した,単調なバックボーンとマルチモーダル融合ネットワークの協調最適化のためのフレームワークを提案する。 Harmonic-NASは10.9%の精度向上、1.91倍の遅延低減、2.14倍のエネルギー効率向上を実現している。
論文参考訳（メタデータ） (2023-09-12T21:37:26Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)
Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文参考訳（メタデータ） (2020-04-25T07:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。