論文の概要: Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked
Modeling for Vision Decoding
- arxiv url: http://arxiv.org/abs/2211.06956v3
- Date: Wed, 29 Mar 2023 03:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 18:23:40.487467
- Title: Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked
Modeling for Vision Decoding
- Title(参考訳): 脳を越えて見る:視覚復号のためのスパースマズドモデリングを用いた条件拡散モデル
- Authors: Zijiao Chen, Jiaxin Qing, Tiange Xiang, Wan Lin Yue, Juan Helen Zhou
- Abstract要約: MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。
我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decoding visual stimuli from brain recordings aims to deepen our
understanding of the human visual system and build a solid foundation for
bridging human and computer vision through the Brain-Computer Interface.
However, reconstructing high-quality images with correct semantics from brain
recordings is a challenging problem due to the complex underlying
representations of brain signals and the scarcity of data annotations. In this
work, we present MinD-Vis: Sparse Masked Brain Modeling with Double-Conditioned
Latent Diffusion Model for Human Vision Decoding. Firstly, we learn an
effective self-supervised representation of fMRI data using mask modeling in a
large latent space inspired by the sparse coding of information in the primary
visual cortex. Then by augmenting a latent diffusion model with
double-conditioning, we show that MinD-Vis can reconstruct highly plausible
images with semantically matching details from brain recordings using very few
paired annotations. We benchmarked our model qualitatively and quantitatively;
the experimental results indicate that our method outperformed state-of-the-art
in both semantic mapping (100-way semantic classification) and generation
quality (FID) by 66% and 41% respectively. An exhaustive ablation study was
also conducted to analyze our framework.
- Abstract(参考訳): 脳記録からの視覚刺激の復号は、人間の視覚システムの理解を深め、Brain-Computer Interfaceを通じて人間とコンピュータの視覚をブリッジするための基盤を構築することを目的としている。
しかし、脳信号の複雑な表現とデータアノテーションの不足により、脳の記録から正しい意味を持つ高品質な画像の再構成は難しい問題である。
本稿では,人間の視覚復号のための2成分遅延拡散モデルを用いたMinD-Vis: Sparse Masked Brain Modelingを提案する。
まず,一次視覚野における情報のスパース符号化にインスパイアされた大きな潜伏空間におけるマスクモデルを用いて,fMRIデータの効果的な自己教師型表現を学習する。
次に,2つの条件付き潜伏拡散モデルを拡張することにより,MinD-Visは,非常に少ないペアアノテーションを用いて,脳の記録から意味的に一致した細部を再現できることを示す。
実験結果から,提案手法は,セマンティックマッピング(100方向意味分類)と生成品質(fid)の両方において,それぞれ66%,41%の精度で最先端を上回っていた。
網羅的アブレーション試験も実施し,我々の枠組みを解析した。
関連論文リスト
- Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。