論文の概要: EEG-Driven 3D Object Reconstruction with Style Consistency and Diffusion Prior
- arxiv url: http://arxiv.org/abs/2410.20981v3
- Date: Sat, 16 Nov 2024 04:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:50.538582
- Title: EEG-Driven 3D Object Reconstruction with Style Consistency and Diffusion Prior
- Title(参考訳): 脳波駆動型3次元物体再構成
- Authors: Xin Xiang, Wenhui Zhou, Guojun Dai,
- Abstract要約: 本稿では,脳波を用いた3次元オブジェクト再構成手法を提案する。
実験により,この手法は脳波データを効果的に利用して3次元オブジェクトをスタイル整合性で再構築できることが実証された。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License:
- Abstract: Electroencephalography (EEG)-based visual perception reconstruction has become an important area of research. Neuroscientific studies indicate that humans can decode imagined 3D objects by perceiving or imagining various visual information, such as color, shape, and rotation. Existing EEG-based visual decoding methods typically focus only on the reconstruction of 2D visual stimulus images and face various challenges in generation quality, including inconsistencies in texture, shape, and color between the visual stimuli and the reconstructed images. This paper proposes an EEG-based 3D object reconstruction method with style consistency and diffusion priors. The method consists of an EEG-driven multi-task joint learning stage and an EEG-to-3D diffusion stage. The first stage uses a neural EEG encoder based on regional semantic learning, employing a multi-task joint learning scheme that includes a masked EEG signal recovery task and an EEG based visual classification task. The second stage introduces a latent diffusion model (LDM) fine-tuning strategy with style-conditioned constraints and a neural radiance field (NeRF) optimization strategy. This strategy explicitly embeds semantic- and location-aware latent EEG codes and combines them with visual stimulus maps to fine-tune the LDM. The fine-tuned LDM serves as a diffusion prior, which, combined with the style loss of visual stimuli, is used to optimize NeRF for generating 3D objects. Finally, through experimental validation, we demonstrate that this method can effectively use EEG data to reconstruct 3D objects with style consistency.
- Abstract(参考訳): 脳波(EEG)に基づく視覚認識の再構築は研究の重要領域となっている。
神経科学的研究は、人間が色、形状、回転などの様々な視覚情報を知覚または想像することで、想像された3Dオブジェクトをデコードできることを示している。
既存の脳波に基づく視覚復号法は、通常、2次元視覚刺激画像の再構成のみに焦点を当て、視覚刺激と再構成画像の間のテクスチャ、形状、色の不整合など、生成品質における様々な課題に直面している。
本稿では,脳波を用いた3次元オブジェクト再構成手法を提案する。
この方法は,脳波駆動型多タスク共同学習段階と脳波から3次元拡散段階からなる。
第1段階では、局所的な意味学習に基づく神経脳波エンコーダを使用し、マスクされた脳波信号回復タスクと脳波に基づく視覚的分類タスクを含むマルチタスク共同学習スキームを使用する。
第2段階では、スタイル条件付き制約付き遅延拡散モデル(LDM)微調整戦略とニューラルラディアンスフィールド(NeRF)最適化戦略を導入する。
この戦略は意味的および位置対応の潜在脳波符号を明示的に埋め込み、視覚刺激マップと組み合わせてLDMを微調整する。
微調整LDMは拡散先行として機能し、視覚刺激のスタイル喪失と相まって、NeRFを最適化して3Dオブジェクトを生成する。
最後に, 実験による検証により, 脳波データを用いて3次元オブジェクトの再構築を行うことが可能であることを実証した。
関連論文リスト
- Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - MinD-3D: Reconstruct High-quality 3D objects in Human Brain [50.534007259536715]
Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3次元視覚を再構成するための革新的なタスクである。
このデータセットは14人の参加者のデータを含み、3Dオブジェクトの360度ビデオが特徴である。
我々は,脳の3次元視覚情報をfMRI信号から復号化するための,新規で効果的な3段階フレームワークMinD-3Dを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:21:36Z) - TouchSDF: A DeepSDF Approach for 3D Shape Reconstruction using
Vision-Based Tactile Sensing [29.691786688595762]
人間は視覚と触覚に頼り、身体環境の総合的な3D理解を開発する。
触覚3次元形状再構成のための深層学習手法であるTouchSDFを提案する。
本手法は,(1)触覚画像をタッチ位置の局所メッシュにマッピングする畳み込みニューラルネットワーク,(2)署名された距離関数を予測して所望の3次元形状を抽出する暗黙的ニューラルネットワークの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-11-21T13:43:06Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。
本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。
我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。
3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。
実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文 参考訳(メタデータ) (2022-06-18T16:58:49Z) - Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing [41.34640834483265]
我々は,単眼のRGB画像のみを付加したフォトリアリスティックな3次元人体再構成のための,新しいエンドツーエンドトレーニング可能なディープニューラルネットワーク手法PHORHUMを提案する。
我々の画素アライメント法は,3次元形状を詳細に推定し,非整形表面色とシーン照明を併用した。
論文 参考訳(メタデータ) (2022-04-19T14:06:16Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - Active 3D Shape Reconstruction from Vision and Touch [66.08432412497443]
人間は、視覚と触覚を共同で利用して、活発な物体探索を通じて世界の3D理解を構築する。
3次元形状の再構成では、最新の進歩はRGB画像、深度マップ、触覚読影などの限られた感覚データの静的データセットに依存している。
1)高空間分解能視覚に基づく触覚センサを応用した3次元物体のアクティブタッチに活用した触覚シミュレータ,2)触覚やビジュオクティビティルを先導するメッシュベースの3次元形状再構成モデル,3)触覚やビジュオのいずれかを用いたデータ駆動型ソリューションのセットからなるシステムを導入する。
論文 参考訳(メタデータ) (2021-07-20T15:56:52Z) - Active stereo vision three-dimensional reconstruction by RGB dot pattern
projection and ray intersection [11.878820609988695]
本稿では,新しい構造光パターンに基づく新しいパターン抽出法と新しい立体視マッチング法を提案する。
実験結果から, 提案手法により, 物体の3次元形状を再現できることがわかった。
論文 参考訳(メタデータ) (2020-03-30T10:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。