論文の概要: BrainDreamer: Reasoning-Coherent and Controllable Image Generation from EEG Brain Signals via Language Guidance
- arxiv url: http://arxiv.org/abs/2409.14021v1
- Date: Sat, 21 Sep 2024 05:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:06:38.353577
- Title: BrainDreamer: Reasoning-Coherent and Controllable Image Generation from EEG Brain Signals via Language Guidance
- Title(参考訳): BrainDreamer:言語誘導による脳波からの共鳴コヒーレントで制御可能な画像生成
- Authors: Ling Wang, Chen Wu, Lin Wang,
- Abstract要約: 本稿では、新しいエンドツーエンド言語誘導型生成フレームワークBrainDreamerを紹介する。
BrainDreamerは人間の推論を模倣し、脳波(EEG)脳信号から高品質の画像を生成する。
非侵襲的な脳波データ取得によるノイズを除去する能力において,本手法は優れている。
- 参考スコア(独自算出の注目度): 14.003870853594972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we directly visualize what we imagine in our brain together with what we describe? The inherent nature of human perception reveals that, when we think, our body can combine language description and build a vivid picture in our brain. Intuitively, generative models should also hold such versatility. In this paper, we introduce BrainDreamer, a novel end-to-end language-guided generative framework that can mimic human reasoning and generate high-quality images from electroencephalogram (EEG) brain signals. Our method is superior in its capacity to eliminate the noise introduced by non-invasive EEG data acquisition and meanwhile achieve a more precise mapping between the EEG and image modality, thus leading to significantly better-generated images. Specifically, BrainDreamer consists of two key learning stages: 1) modality alignment and 2) image generation. In the alignment stage, we propose a novel mask-based triple contrastive learning strategy to effectively align EEG, text, and image embeddings to learn a unified representation. In the generation stage, we inject the EEG embeddings into the pre-trained Stable Diffusion model by designing a learnable EEG adapter to generate high-quality reasoning-coherent images. Moreover, BrainDreamer can accept textual descriptions (e.g., color, position, etc.) to achieve controllable image generation. Extensive experiments show that our method significantly outperforms prior arts in terms of generating quality and quantitative performance.
- Abstract(参考訳): 私たちの脳で想像するものと、記述したものを直接視覚化できますか?
人間の知覚の本質は、私たちの身体が言語記述を結合し、私たちの脳に鮮明な絵を作ることができるということを示しています。
直感的には、生成モデルはそのような汎用性を持つべきである。
本稿では、人間の推論を模倣し、脳波(EEG)脳信号から高品質な画像を生成する、新しいエンドツーエンド言語誘導フレームワークであるBrainDreamerを紹介する。
本手法は,非侵襲的な脳波データ取得によるノイズを除去する能力に優れ,一方,脳波と画像のモダリティのより正確なマッピングを実現し,より優れた画像を生成することができる。
具体的には、BrainDreamerは2つの重要な学習段階から構成される。
1)モダリティアライメントとアライメント
2)画像生成。
アライメント段階において,脳波,テキスト,画像の埋め込みを効果的に調整し,統一表現を学習する,新しいマスクベースの3つのコントラスト学習戦略を提案する。
生成段階では、学習可能なEEGアダプタを設計して、学習済みの安定拡散モデルにEEG埋め込みを注入し、高品質な推論コヒーレントな画像を生成する。
さらに、BrainDreamerは、テキスト記述(例えば、色、位置など)を受け入れて、制御可能な画像生成を実現する。
大規模な実験により,本手法は,品質と量的性能の点で,先行技術よりも有意に優れていたことが判明した。
関連論文リスト
- Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction [7.512223286737468]
脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これにより、脳波からの視覚刺激再建の既存の作品にかなりの制限が生じる。
我々はこれらの課題に対処するためにBrainVisと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:49:11Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - Seeing through the Brain: Image Reconstruction of Visual Perception from
Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。
我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文 参考訳(メタデータ) (2023-07-27T12:54:16Z) - DreamDiffusion: Generating High-Quality Images from Brain EEG Signals [42.30835251506628]
DreamDiffusionは、脳脳波(EEG)信号から直接高品質な画像を生成する新しい方法である。
提案手法は、ノイズ、限られた情報、個人差などの画像生成に脳波信号を使用する際の課題を克服する。
論文 参考訳(メタデータ) (2023-06-29T13:33:02Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。