論文の概要: MixMAS: A Framework for Sampling-Based Mixer Architecture Search for Multimodal Fusion and Learning
- arxiv url: http://arxiv.org/abs/2412.18437v1
- Date: Tue, 24 Dec 2024 13:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:29.007289
- Title: MixMAS: A Framework for Sampling-Based Mixer Architecture Search for Multimodal Fusion and Learning
- Title(参考訳): MixMAS: マルチモーダル融合学習のためのサンプルベースミキサーアーキテクチャ検索フレームワーク
- Authors: Abdelmadjid Chergui, Grigor Bezirganyan, Sana Sellami, Laure Berti-Équille, Sébastien Fournier,
- Abstract要約: MixMASは、マルチモーダル学習に適したミキサーベースのアーキテクチャ検索のための新しいフレームワークである。
提案手法は,与えられたマルチモーダル機械学習(MML)タスクに対して最適なアーキテクチャを自動選択する。
- 参考スコア(独自算出の注目度): 3.416020976141101
- License:
- Abstract: Choosing a suitable deep learning architecture for multimodal data fusion is a challenging task, as it requires the effective integration and processing of diverse data types, each with distinct structures and characteristics. In this paper, we introduce MixMAS, a novel framework for sampling-based mixer architecture search tailored to multimodal learning. Our approach automatically selects the optimal MLP-based architecture for a given multimodal machine learning (MML) task. Specifically, MixMAS utilizes a sampling-based micro-benchmarking strategy to explore various combinations of modality-specific encoders, fusion functions, and fusion networks, systematically identifying the architecture that best meets the task's performance metrics.
- Abstract(参考訳): マルチモーダルデータ融合に適したディープラーニングアーキテクチャを選択することは、異なる構造と特性を持つ多様なデータ型の効果的な統合と処理を必要とするため、難しい作業である。
本稿では,マルチモーダル学習に適したサンプリング型ミキサーアーキテクチャ検索のための新しいフレームワークであるMixMASを紹介する。
提案手法は, 与えられたマルチモーダル機械学習(MML)タスクに対して, MLPに基づく最適アーキテクチャを自動選択する。
具体的には、MixMASはサンプリングベースのマイクロベンチマーク戦略を使用して、モダリティ固有のエンコーダ、融合関数、融合ネットワークの様々な組み合わせを探索し、タスクのパフォーマンス指標に最も適合するアーキテクチャを体系的に識別する。
関連論文リスト
- Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation [97.82707398481273]
メタマルチモーダルフュージョン(MetaMMF)と呼ばれるメタラーニングに基づく新しいマルチモーダルフュージョンフレームワークを開発する。
メタMMFは、入力タスクのマルチモーダル特徴から抽出されたメタ情報に基づいて、メタラーナを介して、アイテム固有の融合関数としてニューラルネットワークをパラメータ化する。
我々は3つのベンチマークデータセットに対して広範な実験を行い、最先端のマルチモーダルレコメンデーションモデルに対する大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-01-13T07:51:43Z) - MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval [73.77101139365912]
効率的なクロスレゾリューションモデリングのための線形計算複雑性を持つマルチスケールマンバであるMUSEを提案する。
具体的には、最後の単一スケールのフィーチャーマップに特徴ピラミッドを適用することで、マルチスケールの表現を生成する。
我々は,Mamba構造を効率的なマルチスケール学習者として用いて,スケールワイド表現を共同学習する。
論文 参考訳(メタデータ) (2024-08-20T06:30:37Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - In the Search for Optimal Multi-view Learning Models for Crop Classification with Global Remote Sensing Data [5.143097874851516]
我々は、光学、レーダー、気象時系列、地形情報を入力データとして提供するCropHarvestデータセットを検証に使用する。
我々は,特定の融合戦略に適した最適エンコーダアーキテクチャを同定し,その分類作業に最適な融合戦略を決定することを提案する。
論文 参考訳(メタデータ) (2024-03-25T09:49:42Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Automatic Discovery of Composite SPMD Partitioning Strategies in PartIR [1.2507285499419876]
本稿では,多くのモデルアーキテクチャとアクセラレータシステムのための効率的な組み合わせを同定する自動分割器を提案する。
我々の重要な発見は、Monte Carlo Tree Searchベースのパーティショナがパーティショニング固有のコンパイラ分析を直接利用し、ガイドされたゴールは、様々なモデルのエキスパートレベルの戦略と一致することである。
論文 参考訳(メタデータ) (2022-10-07T17:46:46Z) - CH-MARL: A Multimodal Benchmark for Cooperative, Heterogeneous
Multi-Agent Reinforcement Learning [15.686200550604815]
マルチルームホーム環境において,複数の模擬異種ロボット間の協調作業を含むタスクを含むベンチマークデータセットを提案する。
我々は、統合学習フレームワーク、最先端マルチエージェント強化学習技術のマルチモーダル実装、一貫した評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-08-26T02:21:31Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。