論文の概要: Reanimating Images using Neural Representations of Dynamic Stimuli
- arxiv url: http://arxiv.org/abs/2406.02659v2
- Date: Fri, 29 Nov 2024 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:07.879360
- Title: Reanimating Images using Neural Representations of Dynamic Stimuli
- Title(参考訳): 動的刺激のニューラル表現を用いた画像の再評価
- Authors: Jacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr,
- Abstract要約: 動画拡散モデルは、静止画像表現とモーション生成を分離するために使用される。
ブレインデコードされたモーション信号は、ビデオの初期フレームのみに基づいて、リアルなビデオ再アニメーションを可能にする。
この枠組みは、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかの理解を深める。
- 参考スコア(独自算出の注目度): 36.04425924379253
- License:
- Abstract: While computer vision models have made incredible strides in static image recognition, they still do not match human performance in tasks that require the understanding of complex, dynamic motion. This is notably true for real-world scenarios where embodied agents face complex and motion-rich environments. Our approach leverages state-of-the-art video diffusion models to decouple static image representation from motion generation, enabling us to utilize fMRI brain activity for a deeper understanding of human responses to dynamic visual stimuli. Conversely, we also demonstrate that information about the brain's representation of motion can enhance the prediction of optical flow in artificial systems. Our novel approach leads to four main findings: (1) Visual motion, represented as fine-grained, object-level resolution optical flow, can be decoded from brain activity generated by participants viewing video stimuli; (2) Video encoders outperform image-based models in predicting video-driven brain activity; (3) Brain-decoded motion signals enable realistic video reanimation based only on the initial frame of the video; and (4) We extend prior work to achieve full video decoding from video-driven brain activity. This framework advances our understanding of how the brain represents spatial and temporal information in dynamic visual scenes. Our findings demonstrate the potential of combining brain imaging with video diffusion models for developing more robust and biologically-inspired computer vision systems. We show additional decoding and encoding examples on this site: https://sites.google.com/view/neural-dynamics/home.
- Abstract(参考訳): コンピュータビジョンモデルは、静的画像認識において驚くべき進歩を遂げてきたが、複雑な動的動きの理解を必要とするタスクにおいて、人間のパフォーマンスには相容れない。
これは、エンボディエージェントが複雑で動きに富んだ環境に直面している現実世界のシナリオに特に当てはまる。
提案手法では,現状の映像拡散モデルを用いて静的な画像表現をモーション生成から切り離し,fMRI脳活動を利用して動的視覚刺激に対する人間の反応をより深く理解することができる。
逆に、脳の運動の表現に関する情報が、人工システムにおける光の流れの予測を促進することも示している。
提案手法は, 映像刺激を視る参加者が生成する脳活動から, 微粒な物体レベルの光学的流れとして表現する視覚運動をデコードすることができること, ビデオ駆動脳活動の予測において, ビデオエンコーダが画像ベースモデルより優れていること, ビデオの初期フレームのみに基づくリアルな映像再生を可能にすること, および, ビデオ駆動脳活動から全映像復号を実現するための先行作業を延長すること, の4つの知見を導いた。
この枠組みは、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかの理解を深める。
脳画像とビデオ拡散モデルを組み合わせることで、より堅牢で生物学的にインスパイアされたコンピュータビジョンシステムの開発の可能性を示す。
https://sites.google.com/view/neural-dynamics/home。
関連論文リスト
- X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models [2.790870674964473]
自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。
提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-07-15T14:06:13Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。