論文の概要: Multi-Modality Multi-Loss Fusion Network
- arxiv url: http://arxiv.org/abs/2308.00264v2
- Date: Tue, 12 Sep 2023 02:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 16:38:15.523256
- Title: Multi-Modality Multi-Loss Fusion Network
- Title(参考訳): マルチモダリティマルチロス融合ネットワーク
- Authors: Zehui Wu, Ziwei Gong, Jaywon Koo, Julia Hirschberg
- Abstract要約: 感情検出を改善するために,複数のモーダルにまたがる特徴の最適選択と融合について検討した。
我々は、異なる融合法を比較し、マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響について検討する。
我々の最良のモデルは、3つのデータセットに対して最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.217982035156333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we investigate the optimal selection and fusion of features
across multiple modalities and combine these in a neural network to improve
emotion detection. We compare different fusion methods and examine the impact
of multi-loss training within the multi-modality fusion network, identifying
useful findings relating to subnet performance. Our best model achieves
state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and
CH-SIMS), and outperforms the other methods in most metrics. We have found that
training on multimodal features improves single modality testing and designing
fusion methods based on dataset annotation schema enhances model performance.
These results suggest a roadmap towards an optimized feature selection and
fusion approach for enhancing emotion detection in neural networks.
- Abstract(参考訳): 本研究では,複数のモダリティにまたがる特徴の最適選択と融合について検討し,これらをニューラルネットワークで組み合わせ,感情検出を改善する。
異なる融合法を比較し,マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響を調べ,サブネット性能に関する有用な知見を明らかにした。
我々の最良のモデルは3つのデータセット(CMU-MOSI、CMU-MOSEI、CH-SIMS)の最先端性能を達成し、ほとんどの指標において他の手法よりも優れています。
マルチモーダル機能のトレーニングにより、単一のモダリティテストが改善され、データセットアノテーションスキーマに基づいた融合メソッドの設計がモデルパフォーマンスを向上させることが判明した。
これらの結果は、ニューラルネットワークにおける感情検出を強化するための最適化された特徴選択および融合アプローチへのロードマップを示唆する。
関連論文リスト
- Fuse It or Lose It: Deep Fusion for Multimodal Simulation-Based
Inference [2.341464719047404]
MultiNPEは、シミュレーションベースの推論において、異なるソースからの異種データをニューラルネットワークと統合する手法である。
我々は,hboxMultiNPEのマルチモーダル融合法を定式化し,その性能を3つの挑戦実験で評価した。
論文 参考訳(メタデータ) (2023-11-17T17:43:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [18.17649683468377]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Equivariant Multi-Modality Image Fusion [142.84362457655516]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然像が特定の変換に等しくなるという以前の知識に基づいている。
実験により,赤外可視画像と医用画像の両方に対して高品質な融合結果が得られた。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - A novel multimodal fusion network based on a joint coding model for lane
line segmentation [22.89466867866239]
本稿では,情報理論の観点から新しいマルチモーダル融合アーキテクチャを提案する。
LiDARカメラ融合ネットワークを用いた実用性を発揮します。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
論文 参考訳(メタデータ) (2021-03-20T06:47:58Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。