論文の概要: Reanimating Images using Neural Representations of Dynamic Stimuli
- arxiv url: http://arxiv.org/abs/2406.02659v2
- Date: Fri, 29 Nov 2024 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:07.879360
- Title: Reanimating Images using Neural Representations of Dynamic Stimuli
- Title(参考訳): 動的刺激のニューラル表現を用いた画像の再評価
- Authors: Jacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr,
- Abstract要約: 動画拡散モデルは、静止画像表現とモーション生成を分離するために使用される。
ブレインデコードされたモーション信号は、ビデオの初期フレームのみに基づいて、リアルなビデオ再アニメーションを可能にする。
この枠組みは、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかの理解を深める。
- 参考スコア(独自算出の注目度): 36.04425924379253
- License:
- Abstract: While computer vision models have made incredible strides in static image recognition, they still do not match human performance in tasks that require the understanding of complex, dynamic motion. This is notably true for real-world scenarios where embodied agents face complex and motion-rich environments. Our approach leverages state-of-the-art video diffusion models to decouple static image representation from motion generation, enabling us to utilize fMRI brain activity for a deeper understanding of human responses to dynamic visual stimuli. Conversely, we also demonstrate that information about the brain's representation of motion can enhance the prediction of optical flow in artificial systems. Our novel approach leads to four main findings: (1) Visual motion, represented as fine-grained, object-level resolution optical flow, can be decoded from brain activity generated by participants viewing video stimuli; (2) Video encoders outperform image-based models in predicting video-driven brain activity; (3) Brain-decoded motion signals enable realistic video reanimation based only on the initial frame of the video; and (4) We extend prior work to achieve full video decoding from video-driven brain activity. This framework advances our understanding of how the brain represents spatial and temporal information in dynamic visual scenes. Our findings demonstrate the potential of combining brain imaging with video diffusion models for developing more robust and biologically-inspired computer vision systems. We show additional decoding and encoding examples on this site: https://sites.google.com/view/neural-dynamics/home.
- Abstract(参考訳): コンピュータビジョンモデルは、静的画像認識において驚くべき進歩を遂げてきたが、複雑な動的動きの理解を必要とするタスクにおいて、人間のパフォーマンスには相容れない。
これは、エンボディエージェントが複雑で動きに富んだ環境に直面している現実世界のシナリオに特に当てはまる。
提案手法では,現状の映像拡散モデルを用いて静的な画像表現をモーション生成から切り離し,fMRI脳活動を利用して動的視覚刺激に対する人間の反応をより深く理解することができる。
逆に、脳の運動の表現に関する情報が、人工システムにおける光の流れの予測を促進することも示している。
提案手法は, 映像刺激を視る参加者が生成する脳活動から, 微粒な物体レベルの光学的流れとして表現する視覚運動をデコードすることができること, ビデオ駆動脳活動の予測において, ビデオエンコーダが画像ベースモデルより優れていること, ビデオの初期フレームのみに基づくリアルな映像再生を可能にすること, および, ビデオ駆動脳活動から全映像復号を実現するための先行作業を延長すること, の4つの知見を導いた。
この枠組みは、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかの理解を深める。
脳画像とビデオ拡散モデルを組み合わせることで、より堅牢で生物学的にインスパイアされたコンピュータビジョンシステムの開発の可能性を示す。
https://sites.google.com/view/neural-dynamics/home。
関連論文リスト
- Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models [2.790870674964473]
自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。
提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-07-15T14:06:13Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.291585611137355]
脳活動から人間のダイナミックビジョンを再構築することは、科学的に重要な課題である。
本稿では,3つの公開データセット上での最先端性能を実現する2段階モデルであるMind-Animatorを提案する。
我々は、再構成された映像力学は、生成モデルの幻覚ではなく、fMRIから導出されるものであることを裏付ける。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。