論文の概要: Learning Brain Representation with Hierarchical Visual Embeddings
- arxiv url: http://arxiv.org/abs/2602.07495v1
- Date: Sat, 07 Feb 2026 11:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.652159
- Title: Learning Brain Representation with Hierarchical Visual Embeddings
- Title(参考訳): 階層型視覚埋め込みによる脳表現の学習
- Authors: Jiawen Zheng, Haonan Jia, Ming Li, Yuhui Zheng, Yufeng Zeng, Yang Gao, Chen Liang,
- Abstract要約: 本稿では,事前学習した視覚エンコーダの帰納的バイアスを利用した脳画像アライメント戦略を提案し,階層的,マルチスケールな視覚表現を捉える。
本手法は,検索精度と再現精度のバランスが良好である。
- 参考スコア(独自算出の注目度): 30.701493890961284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding visual representations from brain signals has attracted significant attention in both neuroscience and artificial intelligence. However, the degree to which brain signals truly encode visual information remains unclear. Current visual decoding approaches explore various brain-image alignment strategies, yet most emphasize high-level semantic features while neglecting pixel-level details, thereby limiting our understanding of the human visual system. In this paper, we propose a brain-image alignment strategy that leverages multiple pre-trained visual encoders with distinct inductive biases to capture hierarchical and multi-scale visual representations, while employing a contrastive learning objective to achieve effective alignment between brain signals and visual embeddings. Furthermore, we introduce a Fusion Prior, which learns a stable mapping on large-scale visual data and subsequently matches brain features to this pre-trained prior, thereby enhancing distributional consistency across modalities. Extensive quantitative and qualitative experiments demonstrate that our method achieves a favorable balance between retrieval accuracy and reconstruction fidelity.
- Abstract(参考訳): 脳信号からの視覚的表現の復号は、神経科学と人工知能の両方において大きな注目を集めている。
しかし、脳信号が真に視覚情報をエンコードする程度は不明である。
現在の視覚デコードアプローチでは、様々な脳画像アライメント戦略が検討されているが、最も強調されているのは、ピクセルレベルの詳細を無視しながら、高レベルのセマンティックな特徴であり、それによって人間の視覚システムに対する理解が制限されることである。
本稿では,脳信号と視覚埋め込みの効果的なアライメントを実現するために,脳画像のアライメント戦略を提案する。
さらに,大規模な視覚データの安定なマッピングを学習し,脳の特徴と事前学習した前者の脳機能とを一致させることにより,モダリティ間の分布の整合性を向上するFusion Priorを導入する。
定量的,定性的な実験により,検索精度と再現精度のバランスが良好であることを実証した。
関連論文リスト
- Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - Adaptive Decoding via Hierarchical Neural Information Gradients in Mouse Visual Tasks [7.199942082447265]
階層的なディープニューラルネットワーク(DNN)は、複雑なデータの中核的な特徴をマイニングするためのツールとして重要な役割を果たしています。
適応トポロジカルビジョン変換器(AT-ViT)と呼ばれる脳領域間の適応トポロジカルデコーディングの手法を提案する。
多くの実験において,視覚課題における階層型ネットワークにおける提案手法の重要性が示された。
論文 参考訳(メタデータ) (2025-10-10T15:00:59Z) - Towards Interpretable Visual Decoding with Attention to Brain Representations [3.254716591226115]
近年の研究では、複雑な視覚刺激が深部生成モデルを用いて人間の脳活動からデコードできることが示されている。
視覚的デコードフレームワークであるNeuroAdapterを提案する。
本研究は、視覚神経科学のレンズを通して、脳と画像の終末復号化の可能性を強調し、拡散モデルを解釈する方法を確立するものである。
論文 参考訳(メタデータ) (2025-09-28T01:55:55Z) - MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data [64.92867794764247]
MindAlignerは、限られたfMRIデータからのクロスオブジェクト脳デコーディングのためのフレームワークである。
脳伝達マトリックス(BTM)は、任意の新しい被験者の脳信号を既知の被験者の1人に投射する。
脳機能アライメントモジュールは、異なる視覚刺激下で軟質なクロスオブジェクト脳アライメントを実行するために提案されている。
論文 参考訳(メタデータ) (2025-02-07T16:01:59Z) - Human-Aligned Image Models Improve Visual Decoding from the Brain [16.184884942703466]
我々は,脳の信号を画像にマッピングするために,人間のアライン画像エンコーダを導入する。
我々の経験的結果は、この単純な修正によって画像検索精度が最大21%向上することを示すこの仮説を支持している。
論文 参考訳(メタデータ) (2025-02-05T11:14:51Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文 参考訳(メタデータ) (2022-10-13T05:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。