論文の概要: MinD-3D: Reconstruct High-quality 3D objects in Human Brain
- arxiv url: http://arxiv.org/abs/2312.07485v1
- Date: Tue, 12 Dec 2023 18:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:49:26.752228
- Title: MinD-3D: Reconstruct High-quality 3D objects in Human Brain
- Title(参考訳): MinD-3D:人間の脳における高品質な3Dオブジェクトの再構築
- Authors: Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei
Fu
- Abstract要約: Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3D視覚を再構築することに焦点を当てた画期的なタスクである。
総合的なfMRI信号キャプチャのための3Dオブジェクトの360度映像を利用したfMRI-Shapeデータセットを提案する。
また,fMRI信号から脳の3次元視覚情報をデコードし,再構成する新しい3段階フレームワークMinD-3Dを提案する。
- 参考スコア(独自算出の注目度): 53.546633606914455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Recon3DMind, a groundbreaking task focused on
reconstructing 3D visuals from Functional Magnetic Resonance Imaging (fMRI)
signals. This represents a major step forward in cognitive neuroscience and
computer vision. To support this task, we present the fMRI-Shape dataset,
utilizing 360-degree view videos of 3D objects for comprehensive fMRI signal
capture. Containing 55 categories of common objects from daily life, this
dataset will bolster future research endeavors. We also propose MinD-3D, a
novel and effective three-stage framework that decodes and reconstructs the
brain's 3D visual information from fMRI signals. This method starts by
extracting and aggregating features from fMRI frames using a neuro-fusion
encoder, then employs a feature bridge diffusion model to generate
corresponding visual features, and ultimately recovers the 3D object through a
generative transformer decoder. Our experiments demonstrate that this method
effectively extracts features that are valid and highly correlated with visual
regions of interest (ROIs) in fMRI signals. Notably, it not only reconstructs
3D objects with high semantic relevance and spatial similarity but also
significantly deepens our understanding of the human brain's 3D visual
processing capabilities. Project page at: https://jianxgao.github.io/MinD-3D.
- Abstract(参考訳): 本稿では,fMRI(Functional Magnetic Resonance Imaging)信号から3次元映像を再構成する作業であるRecon3DMindを紹介する。
これは認知神経科学とコンピュータビジョンの大きな進歩を表している。
この課題を支援するために,3Dオブジェクトの360度映像を利用したfMRI-Shapeデータセットを提案する。
日常生活の共通対象の55のカテゴリを含むこのデータセットは、将来の研究努力を強化するだろう。
また,fMRI信号から脳の3次元視覚情報をデコードし,再構成する新しい3段階フレームワークMinD-3Dを提案する。
神経融合エンコーダを用いてfMRIフレームから特徴を抽出・集約し、次に特徴ブリッジ拡散モデルを用いて対応する視覚特徴を生成し、最終的に生成トランスフォーマーデコーダを介して3Dオブジェクトを復元する。
本研究では,fMRI信号の視覚的関心領域(ROI)と有効かつ高い相関関係を持つ特徴を効果的に抽出することを示した。
特に、意味的関連性と空間的類似性が高い3Dオブジェクトを再構築するだけでなく、人間の脳の3D視覚処理能力に対する理解を深めます。
プロジェクトページ: https://jianxgao.github.io/MinD-3D。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z) - On the Efficacy of 3D Point Cloud Reinforcement Learning [20.4424883945357]
私たちは、最も一般的な3D表現形式の一つである3Dポイントクラウドに注目しています。
我々は3DポイントクラウドRLの設計選択を体系的に検討し、様々なロボット操作と制御タスクのための堅牢なアルゴリズムの開発に繋がる。
エージェント・オブジェクト/オブジェクト・オブジェクトの関係エンコーディングが重要な要素である場合、3DポイントクラウドRLは2Dよりも大幅に優れることがわかった。
論文 参考訳(メタデータ) (2023-06-11T22:52:08Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [81.63322697335228]
我々は,「自由」な仮想監督から,音声オブジェクトのカテゴリー別3D再構成を学習するFarm3Dを提案する。
近年のアプローチでは,物体の3次元形状,アルベド,照明,物体発生の視点を予測するための単眼ネットワークである,対象カテゴリの単一視点画像の集合から学習することができる。
本研究では、安定拡散のような画像生成装置を用いて、そのような再構成ネットワークをスクラッチから学習するための仮想トレーニングデータを生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。
TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。
本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文 参考訳(メタデータ) (2022-09-19T05:54:26Z) - Machine Learning for Detection of 3D Features using sparse X-ray data [6.295613527861694]
慣性凝縮核融合実験では、中性子収率とその他のパラメータは1次元モデルと2次元モデルで完全に説明できない。
この矛盾は、重要な3次元効果が存在することを示唆している。
これらの効果の源は、貝殻と貝殻の界面の欠陥、カプセルの充填管、二重の貝殻の標的の関節の特徴などである。
我々は畳み込みニューラルネットワークを用いて、実験データからICFインロジョンの異なる3次元表現を生成する。
論文 参考訳(メタデータ) (2022-06-02T22:36:54Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。