論文の概要: EEG-Driven 3D Object Reconstruction with Style Consistency and Diffusion Prior
- arxiv url: http://arxiv.org/abs/2410.20981v3
- Date: Sat, 16 Nov 2024 04:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:50.538582
- Title: EEG-Driven 3D Object Reconstruction with Style Consistency and Diffusion Prior
- Title(参考訳): 脳波駆動型3次元物体再構成
- Authors: Xin Xiang, Wenhui Zhou, Guojun Dai,
- Abstract要約: 本稿では,脳波を用いた3次元オブジェクト再構成手法を提案する。
実験により,この手法は脳波データを効果的に利用して3次元オブジェクトをスタイル整合性で再構築できることが実証された。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License:
- Abstract: Electroencephalography (EEG)-based visual perception reconstruction has become an important area of research. Neuroscientific studies indicate that humans can decode imagined 3D objects by perceiving or imagining various visual information, such as color, shape, and rotation. Existing EEG-based visual decoding methods typically focus only on the reconstruction of 2D visual stimulus images and face various challenges in generation quality, including inconsistencies in texture, shape, and color between the visual stimuli and the reconstructed images. This paper proposes an EEG-based 3D object reconstruction method with style consistency and diffusion priors. The method consists of an EEG-driven multi-task joint learning stage and an EEG-to-3D diffusion stage. The first stage uses a neural EEG encoder based on regional semantic learning, employing a multi-task joint learning scheme that includes a masked EEG signal recovery task and an EEG based visual classification task. The second stage introduces a latent diffusion model (LDM) fine-tuning strategy with style-conditioned constraints and a neural radiance field (NeRF) optimization strategy. This strategy explicitly embeds semantic- and location-aware latent EEG codes and combines them with visual stimulus maps to fine-tune the LDM. The fine-tuned LDM serves as a diffusion prior, which, combined with the style loss of visual stimuli, is used to optimize NeRF for generating 3D objects. Finally, through experimental validation, we demonstrate that this method can effectively use EEG data to reconstruct 3D objects with style consistency.
- Abstract(参考訳): 脳波(EEG)に基づく視覚認識の再構築は研究の重要領域となっている。
神経科学的研究は、人間が色、形状、回転などの様々な視覚情報を知覚または想像することで、想像された3Dオブジェクトをデコードできることを示している。
既存の脳波に基づく視覚復号法は、通常、2次元視覚刺激画像の再構成のみに焦点を当て、視覚刺激と再構成画像の間のテクスチャ、形状、色の不整合など、生成品質における様々な課題に直面している。
本稿では,脳波を用いた3次元オブジェクト再構成手法を提案する。
この方法は,脳波駆動型多タスク共同学習段階と脳波から3次元拡散段階からなる。
第1段階では、局所的な意味学習に基づく神経脳波エンコーダを使用し、マスクされた脳波信号回復タスクと脳波に基づく視覚的分類タスクを含むマルチタスク共同学習スキームを使用する。
第2段階では、スタイル条件付き制約付き遅延拡散モデル(LDM)微調整戦略とニューラルラディアンスフィールド(NeRF)最適化戦略を導入する。
この戦略は意味的および位置対応の潜在脳波符号を明示的に埋め込み、視覚刺激マップと組み合わせてLDMを微調整する。
微調整LDMは拡散先行として機能し、視覚刺激のスタイル喪失と相まって、NeRFを最適化して3Dオブジェクトを生成する。
最後に, 実験による検証により, 脳波データを用いて3次元オブジェクトの再構築を行うことが可能であることを実証した。
関連論文リスト
- Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - Neuro-3D: Towards 3D Visual Decoding from EEG Signals [49.502364730056044]
脳波信号から3次元視覚知覚を復号する新しい神経科学タスクを導入する。
まず、ビデオと画像の両方でレンダリングされた72の3Dオブジェクトのカテゴリを閲覧する12人の被験者から、マルチモーダル分析データと脳波記録を含むデータセットであるEEG-3Dを提示する。
脳波信号に基づく3次元視覚デコーディングフレームワークNeuro-3Dを提案する。
論文 参考訳(メタデータ) (2024-11-19T05:52:17Z) - Enhancing Brain Source Reconstruction through Physics-Informed 3D Neural Networks [17.023015853478043]
脳波ソースローカライゼーションのための新しいハイブリッド手法3D-PIUNetを提案する。
我々のモデルは空間的精度を大幅に向上させ,従来のデータ駆動方式とエンドツーエンド方式の両方よりも優れた性能を示す。
3D-PIUNetによる視覚野の同定に成功し,脳波データを用いて検討を行った。
論文 参考訳(メタデータ) (2024-10-31T18:43:38Z) - ShapeMamba-EM: Fine-Tuning Foundation Model with Local Shape Descriptors and Mamba Blocks for 3D EM Image Segmentation [49.42525661521625]
本稿では3次元EMセグメンテーションのための特殊微調整法であるShapeMamba-EMを提案する。
5つのセグメンテーションタスクと10のデータセットをカバーする、幅広いEMイメージでテストされている。
論文 参考訳(メタデータ) (2024-08-26T08:59:22Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - MinD-3D: Reconstruct High-quality 3D objects in Human Brain [50.534007259536715]
Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3次元視覚を再構成するための革新的なタスクである。
このデータセットは14人の参加者のデータを含み、3Dオブジェクトの360度ビデオが特徴である。
我々は,脳の3次元視覚情報をfMRI信号から復号化するための,新規で効果的な3段階フレームワークMinD-3Dを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:21:36Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。