論文の概要: BrainMCLIP: Brain Image Decoding with Multi-Layer feature Fusion of CLIP
- arxiv url: http://arxiv.org/abs/2510.19332v1
- Date: Wed, 22 Oct 2025 07:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.328374
- Title: BrainMCLIP: Brain Image Decoding with Multi-Layer feature Fusion of CLIP
- Title(参考訳): BrainMCLIP:Multi-Layer機能とCLIPの融合による脳画像デコーディング
- Authors: Tian Xia, Zihan Ma, Xinlong Wang, Qing Liu, Xiaowei He, Tianming Liu, Yudan Ren,
- Abstract要約: 本稿では,人間の視覚系の機能的階層によって導かれるパラメータ効率・多層融合手法の先駆者であるBrainMCLIPを紹介する。
BrainMCLIPは機能的に異なる視覚領域からのfMRI信号を対応する中間層と最終層に整列し、機能的階層を尊重する。
結果から,BrainMCLIPは高い競争力,特に高レベルのセマンティックメトリクスに優れることがわかった。
- 参考スコア(独自算出の注目度): 30.357835048979954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding images from fMRI often involves mapping brain activity to CLIP's final semantic layer. To capture finer visual details, many approaches add a parameter-intensive VAE-based pipeline. However, these approaches overlook rich object information within CLIP's intermediate layers and contradicts the brain's functionally hierarchical. We introduce BrainMCLIP, which pioneers a parameter-efficient, multi-layer fusion approach guided by human visual system's functional hierarchy, eliminating the need for such a separate VAE pathway. BrainMCLIP aligns fMRI signals from functionally distinct visual areas (low-/high-level) to corresponding intermediate and final CLIP layers, respecting functional hierarchy. We further introduce a Cross-Reconstruction strategy and a novel multi-granularity loss. Results show BrainMCLIP achieves highly competitive performance, particularly excelling on high-level semantic metrics where it matches or surpasses SOTA(state-of-the-art) methods, including those using VAE pipelines. Crucially, it achieves this with substantially fewer parameters, demonstrating a reduction of 71.7\%(Table.\ref{tab:compare_clip_vae}) compared to top VAE-based SOTA methods, by avoiding the VAE pathway. By leveraging intermediate CLIP features, it effectively captures visual details often missed by CLIP-only approaches, striking a compelling balance between semantic accuracy and detail fidelity without requiring a separate VAE pipeline.
- Abstract(参考訳): fMRIからの画像のデコードには、脳の活動がCLIPの最終セマンティックレイヤにマッピングされることが多い。
より詳細な視覚的詳細をキャプチャするために、多くのアプローチがパラメータ集約型のVAEベースのパイプラインを追加している。
しかし、これらのアプローチはCLIPの中間層内のリッチなオブジェクト情報を見落とし、脳の機能的階層性に矛盾する。
本稿では,人間の視覚系の機能的階層によって誘導されるパラメータ効率・多層融合アプローチの先駆者であるBrainMCLIPを紹介する。
BrainMCLIPは機能的に異なる視覚領域(低レベル/高レベル)からのfMRI信号を対応する中間層と最終層のCLIP層に整列させ、機能的階層を尊重する。
さらに,クロスコンストラクション戦略と新しい多粒度損失を導入する。
その結果、BrainMCLIPは高い競争性能を達成し、特にVAEパイプラインを使用するものを含むSOTA(State-of-the-art)メソッドにマッチまたは超越したハイレベルなセマンティックメトリクスに優れていた。
極めて少ないパラメータで達成し、71.7\%(Table)の減少を示す。
VAE経路を避けることで、上位のVAEベースのSOTAメソッドと比較して、 \ref{tab:compare_clip_vae})。
中間的なCLIP機能を活用することで、CLIPのみのアプローチでしばしば見逃される視覚的詳細を効果的にキャプチャし、分離されたVAEパイプラインを必要とせずに、セマンティックな正確性とディテールの忠実さの明確なバランスを達成できる。
関連論文リスト
- Efficiently Disentangling CLIP for Multi-Object Perception [62.523137132812764]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
凍結したVLMに最小限の学習可能なパラメータのみを追加しながら、最適な相互情報のレベルを学習する効率的なフレームワークであるDCLIPを提案する。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation [26.667974865352708]
MROVSegは、オープンボキャブラリイメージセグメンテーションのためのマルチレゾリューショントレーニングフレームワークで、単一の事前トレーニングされたCLIPバックボーンを備えている。
スライドウィンドウを使用して、高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズにマッチする。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - MPG-Net: Multi-Prediction Guided Network for Segmentation of Retinal
Layers in OCT Images [11.370735571629602]
OCT画像の自動網膜層分割のための新しいマルチプレディション誘導アテンションネットワーク(MPG-Net)を提案する。
MPG-Netは、信頼性の高い自動セグメンテーションのためのU字形完全畳み込みネットワーク(FCN)の識別力を強化する2つの主要なステップから構成される。
論文 参考訳(メタデータ) (2020-09-28T21:22:22Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。