論文の概要: Simultaneous Long-tailed Recognition and Multi-modal Fusion for Highly Imbalanced Multi-modal Data
- arxiv url: http://arxiv.org/abs/2605.10498v1
- Date: Mon, 11 May 2026 12:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.823833
- Title: Simultaneous Long-tailed Recognition and Multi-modal Fusion for Highly Imbalanced Multi-modal Data
- Title(参考訳): 高不均衡なマルチモーダルデータに対する同時ロングテール認識とマルチモーダルフュージョン
- Authors: Heegeon Yoon, Heeyoung Kim,
- Abstract要約: クラス不均衡データの長期分布は、ディープラーニングモデルにとって根本的な課題である。
マルチモーダル入力を明示的に処理するロングテール認識のための新しいフレームワークを提案する。
提案手法は,異種データを統一表現に融合することにより,マルチエキスパートアーキテクチャをマルチモーダル設定に拡張する。
- 参考スコア(独自算出の注目度): 9.797319790710711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-tailed distributions in class-imbalanced data present a fundamental challenge for deep learning models, which tend to be biased toward majority classes. While recent methods for long-tailed recognition have mitigated this issue, they are largely restricted to single-modal inputs and cannot fully exploit complementary information from diverse data sources. In this work, we introduce a new framework for long-tailed recognition that explicitly handles multi-modal inputs. Our approach extends multi-expert architectures to the multi-modal setting by fusing heterogeneous data into a unified representation while leveraging modality-specific networks to estimate the informativeness of each modality. These confidence-guided weights dynamically modulate the fusion process, ensuring that more informative modalities contribute more strongly to the final decision. To further enhance performance, we design specialized training and test procedures that accommodate diverse modality combinations, including images and tabular data. Extensive experiments on benchmark and real-world datasets demonstrate that the proposed approach not only effectively integrates multi-modal information but also outperforms existing methods in handling long-tailed, class-imbalanced scenarios, highlighting its robustness and generalization capability.
- Abstract(参考訳): クラス不均衡データの長期分布は、多数派に偏りがちなディープラーニングモデルにおいて、根本的な課題となる。
最近のロングテール認識法ではこの問題が緩和されているが、それらは主にシングルモーダル入力に限定されており、多様なデータソースからの補完情報を完全に活用することはできない。
本研究では,マルチモーダル入力を明示的に処理する長鎖認識のための新しいフレームワークを提案する。
提案手法は,異種データを統一表現に融合し,モダリティ固有のネットワークを活用して各モダリティの情報性を評価することで,マルチエキスパートアーキテクチャをマルチモーダル設定に拡張する。
これらの信頼誘導重みは核融合過程を動的に変調し、より情報的なモダリティが最終決定に強く寄与することを保証する。
パフォーマンスをさらに向上するため,画像や表データを含む多種多様なモダリティの組み合わせに対応する特別なトレーニングとテスト手順を設計する。
ベンチマークと実世界のデータセットに関する大規模な実験により、提案手法はマルチモーダル情報を効果的に統合するだけでなく、長い尾のクラス不均衡なシナリオを扱う既存の手法よりも優れており、その堅牢性と一般化能力を強調している。
関連論文リスト
- Deep Correlated Prompting for Visual Recognition with Missing Modalities [22.40271366031256]
大規模マルチモーダルモデルでは、ペア化された大規模マルチモーダルトレーニングデータを用いて、一連のタスクに対して優れた性能を示す。
しかし、プライバシーの制約やコレクションの難しさのために、この単純な仮定が現実の世界で常に成り立つとは限らない。
そこで本研究では,大規模事前学習型マルチモーダルモデルを用いて,欠落事例を異なる入力タイプとして扱うことで,欠落したモダリティシナリオに対処する学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T05:28:43Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。