論文の概要: Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing
- arxiv url: http://arxiv.org/abs/2510.04670v1
- Date: Mon, 06 Oct 2025 10:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.801888
- Title: Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing
- Title(参考訳): 動的主観認識ルーティングによるマルチモーダル脳符号化モデルの改善
- Authors: Xuanhua Yin, Runkai Zhao, Weidong Cai,
- Abstract要約: AFIRE(Agnostic Framework for Multimodal fMRI Response)は、様々なエンコーダからの時間整合後トークンを標準化する。
MINDはトークン依存のTop-Kスパースルーティングと、専門家の使用をパーソナライズする前の課題を組み合わせたものだ。
- 参考スコア(独自算出の注目度): 8.942649901923332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Naturalistic fMRI encoding must handle multimodal inputs, shifting fusion styles, and pronounced inter-subject variability. We introduce AFIRE (Agnostic Framework for Multimodal fMRI Response Encoding), an agnostic interface that standardizes time-aligned post-fusion tokens from varied encoders, and MIND, a plug-and-play Mixture-of-Experts decoder with a subject-aware dynamic gating. Trained end-to-end for whole-brain prediction, AFIRE decouples the decoder from upstream fusion, while MIND combines token-dependent Top-K sparse routing with a subject prior to personalize expert usage without sacrificing generality. Experiments across multiple multimodal backbones and subjects show consistent improvements over strong baselines, enhanced cross-subject generalization, and interpretable expert patterns that correlate with content type. The framework offers a simple attachment point for new encoders and datasets, enabling robust, plug-and-improve performance for naturalistic neuroimaging studies.
- Abstract(参考訳): 自然なfMRI符号化は、マルチモーダル入力、融合スタイルのシフト、およびオブジェクト間の変動を処理しなければならない。
AFIRE(Agnostic Framework for Multimodal fMRI Response Encoding)は,様々なエンコーダからタイムアラインなポストフュージョントークンを標準化するアグノスティックインタフェースであり,MIND(Mixture-of-Expertsデコーダ)と主観的動的ゲーティングを備える。
全体脳予測のためにエンドツーエンドで訓練されたAFIREは、デコーダを上流融合から切り離し、MINDはトークン依存のTop-Kスパースルーティングと、一般性を犠牲にすることなく専門家の使用をパーソナライズする主題を結合する。
複数のマルチモーダルバックボーンと被験者を対象とした実験では、強いベースラインよりも一貫した改善、クロスオブジェクトの一般化の強化、コンテンツタイプと相関する解釈可能な専門家パターンが示されている。
このフレームワークは、新しいエンコーダとデータセットに簡単なアタッチメントポイントを提供し、自然主義的ニューロイメージング研究のための堅牢でプラグアンドインプロブなパフォーマンスを可能にする。
関連論文リスト
- Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model [1.3663057923522652]
本稿では,新しいビジョンタワーフレームワークであるFusion to Enhance (FtZ)を紹介する。
FtZは、意味的に強力なアンカーエンコーダと知覚に富んだ拡張エンコーダを革新的に構成することで、シングルエンコーダ設計を越えている。
この研究は、異種の専門家エンコーダを構成することが、現在のMLLMにおける視覚的認知ボトルネックを克服するための効率的かつ効果的な経路であることを証明している。
論文 参考訳(メタデータ) (2025-08-31T02:22:57Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCA: Multi-modal Cross-masked Autoencoder for Digital Health Measurements [2.8493802389913694]
マルチモーダル・クロスマスクオートエンコーダ(Multi-modal Cross-masked Autoencoder, MOCA)は,トランスフォーマアーキテクチャとマスク付きオートエンコーダ(MAE)手法を組み合わせた自己教師型学習フレームワークである。
MoCAは、さまざまなベンチマークデータセット上で、再構築と下流分類タスク間で強力なパフォーマンス向上を示す。
当社のアプローチは、デジタルヘルス領域にまたがる幅広い応用で、未ラベルのマルチモーダルウェアラブルデータを活用するための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-02T21:07:25Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Federated Modality-specific Encoders and Multimodal Anchors for Personalized Brain Tumor Segmentation [29.584319651813754]
FedMEMA (Federated modality-specific encoder) とマルチモーダルアンカー (Multimal anchors) が提案されている。
FedMEMAは、モーダル間の不均一性を考慮するために、各モーダルに排他的エンコーダを使用する。
FedMEMAは、マルチモーダル脳腫瘍セグメンテーションのためのBraTS 2020ベンチマークで検証されている。
論文 参考訳(メタデータ) (2024-03-18T14:02:53Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。