論文の概要: MinD-3D++: Advancing fMRI-Based 3D Reconstruction with High-Quality Textured Mesh Generation and a Comprehensive Dataset
- arxiv url: http://arxiv.org/abs/2409.11315v2
- Date: Fri, 10 Jan 2025 19:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:05.117928
- Title: MinD-3D++: Advancing fMRI-Based 3D Reconstruction with High-Quality Textured Mesh Generation and a Comprehensive Dataset
- Title(参考訳): MinD-3D++: 高品質なテクスチャメッシュ生成と包括的データセットを用いたfMRIに基づく3次元再構成
- Authors: Jianxiong Gao, Yanwei Fu, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng,
- Abstract要約: 機能的磁気共鳴イメージング(fMRI)データから3次元視覚を再構成することは、認知神経科学とコンピュータビジョンにとって重要な関心事である。
我々は15人の参加者のデータを含むfMRI-3Dデータセットを提示し、合計4,768個の3Dオブジェクトを展示する。
テクスチャ化された3次元視覚情報をfMRI信号から復号する新しいフレームワークMinD-3D++を提案する。
- 参考スコア(独自算出の注目度): 50.534007259536715
- License:
- Abstract: Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI) data, introduced as Recon3DMind, is of significant interest to both cognitive neuroscience and computer vision. To advance this task, we present the fMRI-3D dataset, which includes data from 15 participants and showcases a total of 4,768 3D objects. The dataset consists of two components: fMRI-Shape, previously introduced and available at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse, proposed in this paper and available at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse includes data from 5 subjects, 4 of whom are also part of the core set in fMRI-Shape. Each subject views 3,142 3D objects across 117 categories, all accompanied by text captions. This significantly enhances the diversity and potential applications of the dataset. Moreover, we propose MinD-3D++, a novel framework for decoding textured 3D visual information from fMRI signals. The framework evaluates the feasibility of not only reconstructing 3D objects from the human mind but also generating, for the first time, 3D textured meshes with detailed textures from fMRI data. We establish new benchmarks by designing metrics at the semantic, structural, and textured levels to evaluate model performance. Furthermore, we assess the model's effectiveness in out-of-distribution settings and analyze the attribution of the proposed 3D pari fMRI dataset in visual regions of interest (ROIs) in fMRI signals. Our experiments demonstrate that MinD-3D++ not only reconstructs 3D objects with high semantic and spatial accuracy but also provides deeper insights into how the human brain processes 3D visual information. Project page: https://jianxgao.github.io/MinD-3D.
- Abstract(参考訳): Recon3DMindとして導入された機能的磁気共鳴イメージング(fMRI)データから3D視覚を再構成することは、認知神経科学とコンピュータビジョンの両方に大きな関心を持つ。
この課題を進めるために、15人の参加者のデータを含むfMRI-3Dデータセットを提示し、合計4,768個の3Dオブジェクトを提示する。
fMRI-Shapeはhttps://huggingface.co/datasets/Fudan-fMRI/fMRI-Shapeで、fMRI-Objaverseではhttps://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverseで提供されている。
fMRI-Objaverseには、5人の被験者のデータが含まれており、そのうち4人はfMRI-Shapeのコアセットの一部でもある。
各被験者は117カテゴリの3,142個の3Dオブジェクトを閲覧し、それぞれにテキストキャプションを添付している。
これにより、データセットの多様性と潜在的な応用が大幅に向上する。
さらに,fMRI信号からテクスチャ化された3次元視覚情報をデコードするための新しいフレームワークMinD-3D++を提案する。
このフレームワークは、人間の心から3Dオブジェクトを再構築するだけでなく、初めて、fMRIデータから詳細なテクスチャを持つ3Dテクスチャメッシュを生成することが可能である。
モデルの性能を評価するために、セマンティック、構造、テクスチャレベルでメトリクスを設計し、新しいベンチマークを構築します。
さらに,fMRI信号の関心領域(ROIs)における3D pari fMRIデータセットの属性を,アウト・オブ・ディストリビューション・セッティングにおけるモデルの有効性を評価した。
我々の実験では,MinD-3D++は意味的・空間的精度の高い3Dオブジェクトを再構成するだけでなく,人間の脳が3D視覚情報をどのように処理するかの深い洞察を提供する。
プロジェクトページ: https://jianxgao.github.io/MinD-3D。
関連論文リスト
- MRI Reconstruction with Regularized 3D Diffusion Model (R3DM) [2.842800539489865]
正規化3次元拡散モデルと最適化手法を組み合わせた3次元MRI再構成法を提案する。
拡散に基づく事前処理を取り入れることで,画像品質の向上,ノイズの低減,3次元MRI再構成の全体的な忠実度の向上を実現した。
論文 参考訳(メタデータ) (2024-12-25T00:55:05Z) - Feat2GS: Probing Visual Foundation Models with Gaussian Splatting [53.86049874165888]
ビジュアルファウンデーションモデル(VFM)は、広範囲なデータセットでトレーニングされるが、2D画像に制限されることが多い。
画像から抽出したVFM特徴から3Dガウス特性を読み取るFeat2GSを紹介する。
我々は,複数のVFMの3次元認識を探索する広範囲な実験を行い,VFMの3次元認識に繋がる成分について検討した。
論文 参考訳(メタデータ) (2024-12-12T18:59:28Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - MinD-3D: Reconstruct High-quality 3D objects in Human Brain [50.534007259536715]
Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3次元視覚を再構成するための革新的なタスクである。
このデータセットは14人の参加者のデータを含み、3Dオブジェクトの360度ビデオが特徴である。
我々は,脳の3次元視覚情報をfMRI信号から復号化するための,新規で効果的な3段階フレームワークMinD-3Dを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:21:36Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。