論文の概要: MinD-3D: Reconstruct High-quality 3D objects in Human Brain
- arxiv url: http://arxiv.org/abs/2312.07485v2
- Date: Thu, 21 Mar 2024 08:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:27:29.700752
- Title: MinD-3D: Reconstruct High-quality 3D objects in Human Brain
- Title(参考訳): MinD-3D:人間の脳における高品質な3Dオブジェクトの再構築
- Authors: Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu,
- Abstract要約: Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3次元視覚を再構成するための革新的なタスクである。
このデータセットは14人の参加者のデータを含み、3Dオブジェクトの360度ビデオが特徴である。
我々は,脳の3次元視覚情報をfMRI信号から復号化するための,新規で効果的な3段階フレームワークMinD-3Dを提案する。
- 参考スコア(独自算出の注目度): 50.534007259536715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Recon3DMind, an innovative task aimed at reconstructing 3D visuals from Functional Magnetic Resonance Imaging (fMRI) signals, marking a significant advancement in the fields of cognitive neuroscience and computer vision. To support this pioneering task, we present the fMRI-Shape dataset, which includes data from 14 participants and features 360-degree videos of 3D objects to enable comprehensive fMRI signal capture across various settings, thereby laying a foundation for future research. Furthermore, we propose MinD-3D, a novel and effective three-stage framework specifically designed to decode the brain's 3D visual information from fMRI signals, demonstrating the feasibility of this challenging task. The framework begins by extracting and aggregating features from fMRI frames through a neuro-fusion encoder, subsequently employs a feature bridge diffusion model to generate visual features, and ultimately recovers the 3D object via a generative transformer decoder. We assess the performance of MinD-3D using a suite of semantic and structural metrics and analyze the correlation between the features extracted by our model and the visual regions of interest (ROIs) in fMRI signals. Our findings indicate that MinD-3D not only reconstructs 3D objects with high semantic relevance and spatial similarity but also significantly enhances our understanding of the human brain's capabilities in processing 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.
- Abstract(参考訳): 本稿では,fMRI(Function Magnetic Resonance Imaging)信号から3次元視覚を再構築するための革新的な課題であるRecon3DMindを紹介する。
この先駆的なタスクを支援するために、14人の参加者からのデータを含むfMRI-Shapeデータセットを提示し、3Dオブジェクトの360度映像を特徴とし、様々な設定で総合的なfMRI信号のキャプチャを可能にし、将来の研究の基礎を築いた。
さらに,脳の3次元視覚情報をfMRI信号から復号化するための新しい3段階フレームワークMinD-3Dを提案する。
このフレームワークは、fMRIフレームからニューロフュージョンエンコーダを介して特徴を抽出して集約し、続いて特徴橋拡散モデルを用いて視覚的特徴を生成し、最終的に生成トランスフォーマーデコーダを介して3Dオブジェクトを復元する。
意味的および構造的指標を用いたMinD-3Dの性能評価を行い,fMRI信号における特徴量と関心領域(ROI)の関係を解析した。
以上の結果から,MinD-3Dは意味的関連性と空間的類似性が高い3Dオブジェクトを再構成するだけでなく,人間の脳の3D視覚情報処理能力の理解を著しく向上させることが示唆された。
プロジェクトページ: https://jianxgao.github.io/MinD-3D。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [24.367371441506116]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する革新的な手法である。
課題となる3Dオブジェクト検出データセットであるKITTIについて、総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z) - On the Efficacy of 3D Point Cloud Reinforcement Learning [20.4424883945357]
私たちは、最も一般的な3D表現形式の一つである3Dポイントクラウドに注目しています。
我々は3DポイントクラウドRLの設計選択を体系的に検討し、様々なロボット操作と制御タスクのための堅牢なアルゴリズムの開発に繋がる。
エージェント・オブジェクト/オブジェクト・オブジェクトの関係エンコーディングが重要な要素である場合、3DポイントクラウドRLは2Dよりも大幅に優れることがわかった。
論文 参考訳(メタデータ) (2023-06-11T22:52:08Z) - CVRecon: Rethinking 3D Geometric Feature Learning For Neural
Reconstruction [12.53249207602695]
本稿では,エンドツーエンドの3Dニューラル再構成フレームワークCVReconを提案する。
コストボリュームにリッチな幾何学的埋め込みを利用して、3次元の幾何学的特徴学習を容易にする。
論文 参考訳(メタデータ) (2023-04-28T05:30:19Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。