論文の概要: FLUID: Flow-Latent Unified Integration via Token Distillation for Expert Specialization in Multimodal Learning
- arxiv url: http://arxiv.org/abs/2508.07264v1
- Date: Sun, 10 Aug 2025 09:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.563097
- Title: FLUID: Flow-Latent Unified Integration via Token Distillation for Expert Specialization in Multimodal Learning
- Title(参考訳): FLUID:マルチモーダル学習におけるエキスパートスペシャライゼーションのためのトケン蒸留によるフローレイテンシ統合
- Authors: Van Duc Cuong, Ta Dinh Tam, Tran Duc Chinh, Nguyen Thi Hanh,
- Abstract要約: token Distillation for Expert Components を用いた textscFLUID-Flow-Latent Unified Integration を提案する。
textscFLUID は,(1) emphQ-transforms, 学習可能なクエリトークン, (2) コントラストアライメントによる相互整合を強制する2段階の融合スキーム, (3) 予測時の軽量でロードバランスのMixture-of-Experts の3要素に寄与する。
- 参考スコア(独自算出の注目度): 1.912429179274357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal classification requires robust integration of visual and textual signals, yet common fusion strategies are brittle and vulnerable to modality-specific noise. In this paper, we present \textsc{FLUID}-Flow-Latent Unified Integration via Token Distillation for Expert Specialization, a principled token-level pipeline that improves cross-modal robustness and scalability. \textsc{FLUID} contributes three core elements: (1) \emph{Q-transforms}, learnable query tokens that distill and retain salient token-level features from modality-specific backbones; (2) a two-stage fusion scheme that enforces cross-modal consistency via contrastive alignment and then performs adaptive, task-aware fusion through a gating mechanism and a \emph{Q-bottleneck} that selectively compresses information for downstream reasoning; and (3) a lightweight, load-balanced Mixture-of-Experts at prediction time that enables efficient specialization to diverse semantic patterns. Extensive experiments demonstrate that \textsc{FLUID} attains \(91\%\) accuracy on the GLAMI-1M benchmark, significantly outperforming prior baselines and exhibiting strong resilience to label noise, long-tail class imbalance, and semantic heterogeneity. Targeted ablation studies corroborate both the individual and synergistic benefits of the proposed components, positioning \textsc{FLUID} as a scalable, noise-resilient solution for multimodal product classification.
- Abstract(参考訳): マルチモーダル分類には、視覚信号とテキスト信号の堅牢な統合が必要であるが、一般的な融合戦略は脆く、モダリティ固有のノイズに対して脆弱である。
本稿では, クロスモーダルなロバスト性とスケーラビリティを向上するトークンレベルパイプラインである Token Distillation for Expert Specialization を通じて, \textsc{FLUID}-Flow-Latent Unified Integration を提案する。
1 \emph{Q-transforms}、学習可能なクエリトークンで、モダリティ固有のバックボーンから有意なトークンレベルの特徴を抽出し保持する (2) コントラストアライメントを通じて相互整合を強制し、ゲーティング機構を介して適応的でタスク認識の融合を実行する2段階の融合スキーム、そして下流の推論のために情報を選択的に圧縮する \emph{Q-bottleneck} 、(3) 軽量でロードバランスのMixture-of-Experts の予測時に、様々な意味パターンへの効率的な特殊化を可能にする。
広範な実験により、GLAMI-1Mベンチマークにおいて、 \textsc{FLUID} が \(91\%\) の精度を達成し、事前ベースラインを著しく上回り、ラベルノイズ、ロングテールクラス不均衡、セマンティックヘテロジニティに対する強い耐性を示すことが示された。
ターゲットアブレーション研究は、提案した成分の個人的および相乗効果の両方を相関させ、マルチモーダル製品分類のためのスケーラブルで耐雑音性のあるソリューションとして \textsc{FLUID} を位置づけた。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T15:53:21Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。