論文の概要: NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
- arxiv url: http://arxiv.org/abs/2410.19452v2
- Date: Mon, 28 Oct 2024 07:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:23:13.366566
- Title: NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
- Title(参考訳): NeuroClips:高忠実度・滑らかなfMRI-to-Video再構成を目指して
- Authors: Zixuan Gong, Guangyin Bao, Qi Zhang, Zhongwei Wan, Duoqian Miao, Shoujin Wang, Lei Zhu, Changwei Wang, Rongtao Xu, Liang Hu, Ke Liu, Yu Zhang,
- Abstract要約: 我々は,fMRIから高忠実度・スムーズな映像をデコードする革新的なフレームワークであるNeuroClipsを提案する。
NeuroClipsは、ビデオの再構成にセマンティックサクタを使用し、セマンティックの精度と一貫性を誘導し、低レベルの知覚の詳細を捉えるために知覚再構成器を使用する。
NeuroClipsは8FPSで最大6秒のスムーズな高忠実度ビデオ再構成を実現する。
- 参考スコア(独自算出の注目度): 29.030311713701295
- License:
- Abstract: Reconstruction of static visual stimuli from non-invasion brain activity fMRI achieves great success, owning to advanced deep learning models such as CLIP and Stable Diffusion. However, the research on fMRI-to-video reconstruction remains limited since decoding the spatiotemporal perception of continuous visual experiences is formidably challenging. We contend that the key to addressing these challenges lies in accurately decoding both high-level semantics and low-level perception flows, as perceived by the brain in response to video stimuli. To the end, we propose NeuroClips, an innovative framework to decode high-fidelity and smooth video from fMRI. NeuroClips utilizes a semantics reconstructor to reconstruct video keyframes, guiding semantic accuracy and consistency, and employs a perception reconstructor to capture low-level perceptual details, ensuring video smoothness. During inference, it adopts a pre-trained T2V diffusion model injected with both keyframes and low-level perception flows for video reconstruction. Evaluated on a publicly available fMRI-video dataset, NeuroClips achieves smooth high-fidelity video reconstruction of up to 6s at 8FPS, gaining significant improvements over state-of-the-art models in various metrics, e.g., a 128% improvement in SSIM and an 81% improvement in spatiotemporal metrics. Our project is available at https://github.com/gongzix/NeuroClips.
- Abstract(参考訳): 非侵襲脳活動からの静的視覚刺激の再構成fMRIは、CLIPやStable Diffusionのような先進的なディープラーニングモデルを所有し、大きな成功を収める。
しかし、連続的な視覚経験の時空間的知覚の復号化は極めて難しいため、fMRI-to-video再構成の研究は依然として限られている。
これらの課題に対処する鍵は、ビデオ刺激に応答して脳によって知覚されるように、ハイレベルなセマンティクスと低レベルな知覚フローの両方を正確に復号することにある、と我々は主張する。
最後に,fMRIから高忠実かつスムーズな映像をデコードする革新的なフレームワークであるNeuroClipsを提案する。
NeuroClipsは、セマンティックス・コンストラクタを使用して、ビデオのキーフレームを再構築し、セマンティックな精度と一貫性を導く。
推論中に、ビデオ再構成のためにキーフレームと低レベル認識フローの両方を注入した訓練済みのT2V拡散モデルを採用する。
公開されているfMRIビデオデータセットに基づいて評価すると、NeuroClipsは8FPSで最大6秒のスムーズな高忠実度ビデオ再構成を実現し、さまざまなメトリクスにおける最先端モデルの大幅な改善、SSIMの128%の改善、時空間メトリクスの81%の改善を実現している。
私たちのプロジェクトはhttps://github.com/gongzix/NeuroClips.comで利用可能です。
関連論文リスト
- MambaRecon: MRI Reconstruction with Structured State Space Models [30.506544165999564]
ディープラーニングの出現は、MRIスキャンの迅速な再構築のための最先端の手法の開発を触媒している。
本稿では,長期的文脈感度と再構成の有効性の両立を目的とした,構造化状態空間モデルをコアに採用した革新的なMRI再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:50:10Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.291585611137355]
脳活動から人間のダイナミックビジョンを再構築することは、科学的に重要な課題である。
本稿では,3つの公開データセット上での最先端性能を実現する2段階モデルであるMind-Animatorを提案する。
我々は、再構成された映像力学は、生成モデルの幻覚ではなく、fMRIから導出されるものであることを裏付ける。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry
Scaffolds [60.1382112938132]
室内における自由ナビゲーションを可能にする新しいニューラル放射場(NeRF)法であるNeRFVSを提案する。
NeRFは、トレーニングビューと大きく異なる新規ビューに苦しむ一方で、入力ビューと同様の新規ビューの画像のレンダリングにおいて、印象的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-13T06:40:08Z) - Natural scene reconstruction from fMRI signals using generative latent
diffusion [1.90365714903665]
我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。
第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
論文 参考訳(メタデータ) (2023-03-09T15:24:26Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。