論文の概要: Unified Multimodal Brain Decoding via Cross-Subject Soft-ROI Fusion
- arxiv url: http://arxiv.org/abs/2512.20249v1
- Date: Tue, 23 Dec 2025 11:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.836458
- Title: Unified Multimodal Brain Decoding via Cross-Subject Soft-ROI Fusion
- Title(参考訳): クロスオブジェクトソフトROI融合による統合型マルチモーダル脳デコーディング
- Authors: Xuanyu Hu,
- Abstract要約: マルチモーダル脳デコーディングは、fMRIのような脳活動信号から視覚刺激と整合した意味情報を再構成することを目的としている。
我々は,NSDデータセットを用いた脳機能評価において,ブレインROIモデルを提案し,トップレベルの結果を得る。
クロスオブジェクト設定では、最近の最先端の手法や代表的ベースラインと比較して、BLEU-4やCIDErのようなメトリクスは明らかに改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal brain decoding aims to reconstruct semantic information that is consistent with visual stimuli from brain activity signals such as fMRI, and then generate readable natural language descriptions. However, multimodal brain decoding still faces key challenges in cross-subject generalization and interpretability. We propose a BrainROI model and achieve leading-level results in brain-captioning evaluation on the NSD dataset. Under the cross-subject setting, compared with recent state-of-the-art methods and representative baselines, metrics such as BLEU-4 and CIDEr show clear improvements. Firstly, to address the heterogeneity of functional brain topology across subjects, we design a new fMRI encoder. We use multi-atlas soft functional parcellations (soft-ROI) as a shared space. We extend the discrete ROI Concatenation strategy in MINDLLM to a voxel-wise gated fusion mechanism (Voxel-gate). We also ensure consistent ROI mapping through global label alignment, which enhances cross-subject transferability. Secondly, to overcome the limitations of manual and black-box prompting methods in stability and transparency, we introduce an interpretable prompt optimization process. In a small-sample closed loop, we use a locally deployed Qwen model to iteratively generate and select human-readable prompts. This process improves the stability of prompt design and preserves an auditable optimization trajectory. Finally, we impose parameterized decoding constraints during inference to further improve the stability and quality of the generated descriptions.
- Abstract(参考訳): マルチモーダル脳デコーディングは、fMRIなどの脳活動信号から視覚刺激と整合した意味情報を再構成し、読みやすい自然言語記述を生成することを目的としている。
しかし、マルチモーダル脳デコーディングは、クロスオブジェクトの一般化と解釈可能性において重要な課題に直面している。
我々は,NSDデータセットを用いた脳機能評価において,ブレインROIモデルを提案し,トップレベルの結果を得る。
クロスオブジェクト設定では、最近の最先端の手法や代表的ベースラインと比較して、BLEU-4やCIDErのようなメトリクスは明らかに改善されている。
まず、被験者間の機能的脳トポロジーの不均一性に対処するため、新しいfMRIエンコーダを設計する。
共有空間としてマルチアトラスソフト機能解析(ソフトROI)を用いる。
我々は、MINDLLMにおける個別ROI結合戦略を、ボクセル単位のゲート融合機構(ボクセルゲート)に拡張する。
また、グローバルラベルアライメントによる一貫したROIマッピングも保証し、オブジェクト間の転送可能性を高める。
第2に,手動およびブラックボックスによる安定性と透明性の制限を克服するために,解釈可能なプロンプト最適化プロセスを導入する。
小サンプル閉ループでは、ローカルにデプロイされたQwenモデルを使用して、人間が読めるプロンプトを反復的に生成し、選択する。
このプロセスは、迅速な設計の安定性を改善し、監査可能な最適化軌道を保存する。
最後に、パラメータ化されたデコード制約を推論中に課し、生成した記述の安定性と品質をさらに向上させる。
関連論文リスト
- Hybrid Fuzzing with LLM-Guided Input Mutation and Semantic Feedback [0.0]
本稿では,静的および動的解析をLarge Language Model(LLM)誘導入力変異と意味フィードバックと統合したハイブリッドファジリングフレームワークを提案する。
本手法は,最先端のファジィよりも高速な時間対第一のバグ,意味的多様性の向上,およびユニークなバグの競合数を実現する。
論文 参考訳(メタデータ) (2025-11-06T02:38:24Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - S2Sent: Nested Selectivity Aware Sentence Representation Learning [5.284254208630281]
文表現選択機構Ssuperscript2Sentを提案する。
セレクタは、モジュールの観点から空間選択(SS)およびネスト周波数選択(FS)を行う。
大規模な実験では、Stextsuperscript2Sentはベースラインメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-25T16:13:42Z) - Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [45.347078403677216]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding [15.264864090398374]
機能的磁気共鳴画像(fMRI)信号をテキストに復号することは神経科学において重要な課題である。
我々は、主観的かつ汎用的なfMRI-to-textデコーディングのためのモデルであるMindLLMを提案する。
本稿では,fMRI信号から多種多様な意味表現を捉える能力を高める新しい手法であるBrain Instruction Tuning(BIT)を紹介する。
論文 参考訳(メタデータ) (2025-02-18T03:27:37Z) - UniBrain: A Unified Model for Cross-Subject Brain Decoding [22.49964298783508]
被験者固有のパラメータを必要としない統一脳復号モデルUniBrainを提案する。
提案手法は, 可変fMRI信号長を扱うグループベース抽出器, クロスオブジェクトの共通点を捕捉する相互支援組込み器, 被写体不変特徴を抽出するバイレベル特徴アライメント方式を含む。
我々は、UniBrainを脳復号ベンチマークで検証し、パラメータが極端に少ない現在の最先端の主題特化モデルに匹敵する性能を実現した。
論文 参考訳(メタデータ) (2024-12-27T07:03:47Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。