論文の概要: Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2605.03348v1
- Date: Tue, 05 May 2026 04:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.759751
- Title: Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts
- Title(参考訳): 構造的マルチモーダル表現に向けて--Mixture-of-Expertsによる特殊化・選択・スパーシフィケーション
- Authors: Hahyeon Choi, Nojun Kwak,
- Abstract要約: 構造的視点からマルチモーダル学習を再考するフレームワークとして,S3(Specialization Selection, Sparsification)を提案する。
4つのMultiBenchベンチマークにおいて、S3は精度を改善し、一貫したU字型スペーサリティ性能傾向を示す。
これらの結果から,マルチモーダル表現を意味的コンポーネントとして構築することは,コントラスト学習やInfoMax主導のアプローチに代わる実践的で原則的な代替手段となることが示唆された。
- 参考スコア(独自算出の注目度): 30.642216895934258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose S3 (Specialization, Selection, Sparsification), a framework that rethinks multimodal learning through a structural perspective. Instead of encoding all signals into a fixed embedding, S3 decomposes multimodal inputs into semantic experts and selectively routes them for each task. Specialization forms concept-level experts in a shared latent space, Selection adapts routing for task-specific needs, and Sparsification prunes low-utility paths to yield compact, information-minimal representations. Across four MultiBench benchmarks, S3 improves accuracy and shows a consistent reverse U-shaped sparsity-performance trend, with peak performance at intermediate sparsity. These results suggest that structuring multimodal representations as selectable semantic components provides a practical and principled alternative to contrastive learning or InfoMax-driven approaches.
- Abstract(参考訳): 構造的視点からマルチモーダル学習を再考するフレームワークとして,S3(Specialization, Selection, Sparsification)を提案する。
すべての信号を固定埋め込みにエンコードする代わりに、S3はマルチモーダル入力をセマンティックエキスパートに分解し、各タスクに対して選択的にルーティングする。
特殊化は、共有潜在空間において概念レベルの専門家を形成し、Selectionはタスク固有のニーズにルーティングを適応し、スパーシフィケーションは、コンパクトで情報最小表現をもたらすために、低ユーティリティパスを創出する。
4つのMultiBenchベンチマークにおいて、S3は精度を向上し、一貫したU字型スペーサリティ性能傾向を示し、中間スペーサリティでのピーク性能を示す。
これらの結果は,マルチモーダル表現を選択可能なセマンティックコンポーネントとして構成することは,コントラスト学習やInfoMax主導のアプローチに代わる実用的で原則的な代替手段となることを示唆している。
関連論文リスト
- Robust Multispectral Semantic Segmentation under Missing or Full Modalities via Structured Latent Projection [5.097809301149341]
現実世界の展開では、センサーの故障、取得の問題、大気条件の難しさにより、いくつかのモダリティが利用できない可能性がある。
既存のマルチモーダルセグメンテーションモデルは、通常、入力間で共有表現を学ぶことで、欠落したモダリティに対処する。
我々は、モダリティ不変情報とモダリティ固有情報の両方を保存するために設計されたマルチモーダルセマンティックセマンティックセマンティクスモデルCBC-SLPを用いて、この制限に取り組む。
論文 参考訳(メタデータ) (2026-04-17T09:05:22Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - CUS-GS: A Compact Unified Structured Gaussian Splatting Framework for Multimodal Scene Representation [16.85102888388904]
CUS-GSはコンパクトな統一型ガウススプティング表現である。
本稿では,アンカーの生育と刈り取りをガイドするための特徴認識重要度評価戦略を提案する。
CUS-GSは6Mパラメータしか使用しない最先端の手法と比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2025-11-22T03:42:49Z) - Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts [49.21162433486564]
適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。
Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。
本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
論文 参考訳(メタデータ) (2025-05-27T12:03:30Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture [6.928469290518152]
マルチモーダルタスクにJEPA(Joint-Embedding Predictive Architecture)を導入する。
入力埋め込みを出力埋め込み空間に予測器で変換し、次に潜在空間上でクロスモーダルアライメントを実行する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - Focus-Consistent Multi-Level Aggregation for Compositional Zero-Shot Learning [34.133790456747626]
画像の内容に基づいて各ブランチ毎にパーソナライズされた特徴を生成する新しい手法を提案する。
本手法では,MFA(Multi-Level Feature Aggregation)モジュールを組み込んで,画像の内容に基づいて各ブランチのパーソナライズされた特徴を生成する。
論文 参考訳(メタデータ) (2024-08-30T08:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。