論文の概要: Reanimating Images using Neural Representations of Dynamic Stimuli
- arxiv url: http://arxiv.org/abs/2406.02659v3
- Date: Tue, 25 Mar 2025 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 19:42:56.630123
- Title: Reanimating Images using Neural Representations of Dynamic Stimuli
- Title(参考訳): 動的刺激のニューラル表現を用いた画像の再評価
- Authors: Jacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr,
- Abstract要約: 脳NRDS(Brain-Neural Representations of Dynamic Stimuli)は、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかを理解する。
動的視覚刺激に対する人間の反応をより深く理解するためにfMRI脳活動を利用する。
脳画像とビデオ拡散モデルを組み合わせることで、より堅牢で生物学的にインスパイアされたコンピュータビジョンシステムの開発の可能性を示す。
- 参考スコア(独自算出の注目度): 36.04425924379253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While computer vision models have made incredible strides in static image recognition, they still do not match human performance in tasks that require the understanding of complex, dynamic motion. This is notably true for real-world scenarios where embodied agents face complex and motion-rich environments. Our approach, BrainNRDS (Brain-Neural Representations of Dynamic Stimuli), leverages state-of-the-art video diffusion models to decouple static image representation from motion generation, enabling us to utilize fMRI brain activity for a deeper understanding of human responses to dynamic visual stimuli. Conversely, we also demonstrate that information about the brain's representation of motion can enhance the prediction of optical flow in artificial systems. Our novel approach leads to four main findings: (1) Visual motion, represented as fine-grained, object-level resolution optical flow, can be decoded from brain activity generated by participants viewing video stimuli; (2) Video encoders outperform image-based models in predicting video-driven brain activity; (3) Brain-decoded motion signals enable realistic video reanimation based only on the initial frame of the video; and (4) We extend prior work to achieve full video decoding from video-driven brain activity. BrainNRDS advances our understanding of how the brain represents spatial and temporal information in dynamic visual scenes. Our findings demonstrate the potential of combining brain imaging with video diffusion models for developing more robust and biologically-inspired computer vision systems. We show additional decoding and encoding examples on this site: https://brain-nrds.github.io/.
- Abstract(参考訳): コンピュータビジョンモデルは、静的画像認識において驚くべき進歩を遂げてきたが、複雑な動的動きの理解を必要とするタスクにおいて、人間のパフォーマンスには相容れない。
これは、エンボディエージェントが複雑で動きに富んだ環境に直面している現実世界のシナリオに特に当てはまる。
脳NRDS(Brain-Neural Representations of Dynamic Stimuli)は,動画像から静的な画像表現を分離するために最先端の映像拡散モデルを活用し,動的視覚刺激に対する人間の反応をより深く理解するためにfMRI脳活動を利用する。
逆に、脳の運動の表現に関する情報が、人工システムにおける光の流れの予測を促進することも示している。
提案手法は, 映像刺激を視る参加者が生成する脳活動から, 微粒な物体レベルの光学的流れとして表現する視覚運動をデコードすることができること, ビデオ駆動脳活動の予測において, ビデオエンコーダが画像ベースモデルより優れていること, ビデオの初期フレームのみに基づくリアルな映像再生を可能にすること, および, ビデオ駆動脳活動から全映像復号を実現するための先行作業を延長すること, の4つの知見を導いた。
BrainNRDSは、ダイナミックな視覚シーンにおいて、脳が空間的および時間的情報をどのように表現するかについての理解を深めます。
脳画像とビデオ拡散モデルを組み合わせることで、より堅牢で生物学的にインスパイアされたコンピュータビジョンシステムの開発の可能性を示す。
このサイトでは、さらにデコードとエンコーディングの例を紹介します。
関連論文リスト
- DecoFuse: Decomposing and Fusing the "What", "Where", and "How" for Brain-Inspired fMRI-to-Video Decoding [82.91021399231184]
既存のfMRI-to-video法は、しばしば空間情報や動き情報を見下ろしながら意味的内容に焦点を当てる。
そこで我々は,fMRI信号から映像をデコードするための,脳にインスパイアされた新しいフレームワークであるDecoFuseを提案する。
まず、ビデオはセマンティック、空間、動きの3つのコンポーネントに分解し、次に各コンポーネントを別々にデコードしてから、ビデオを再構成する。
論文 参考訳(メタデータ) (2025-04-01T05:28:37Z) - Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction [13.110669865114533]
NEURONSは、学習を4つの相関したサブタスクに分離するコンセプトフレームワークである。
これは視覚野の機能的特殊化をシミュレートし、モデルが多様なビデオコンテンツをキャプチャすることを可能にする。
NEURONSは視覚野と強い機能相関を示し、脳とコンピュータのインターフェースと臨床応用の可能性を強調している。
論文 参考訳(メタデータ) (2025-03-14T08:12:28Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - Neuro-3D: Towards 3D Visual Decoding from EEG Signals [49.502364730056044]
脳波信号から3次元視覚知覚を復号する新しい神経科学タスクを導入する。
まず、ビデオと画像の両方でレンダリングされた72の3Dオブジェクトのカテゴリを閲覧する12人の被験者から、マルチモーダル分析データと脳波記録を含むデータセットであるEEG-3Dを提示する。
脳波信号に基づく3次元視覚デコーディングフレームワークNeuro-3Dを提案する。
論文 参考訳(メタデータ) (2024-11-19T05:52:17Z) - Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models [2.790870674964473]
自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。
提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-07-15T14:06:13Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.291585611137355]
脳活動から人間のダイナミックビジョンを再構築することは、科学的に重要な課題である。
本稿では,3つの公開データセット上での最先端性能を実現する2段階モデルであるMind-Animatorを提案する。
我々は、再構成された映像力学は、生成モデルの幻覚ではなく、fMRIから導出されるものであることを裏付ける。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。