論文の概要: Neural Representations of Dynamic Visual Stimuli
- arxiv url: http://arxiv.org/abs/2406.02659v1
- Date: Tue, 4 Jun 2024 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:08:11.274466
- Title: Neural Representations of Dynamic Visual Stimuli
- Title(参考訳): 動的視覚刺激の神経表現
- Authors: Jacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr,
- Abstract要約: fMRIで測定した脳活動から視運動情報を光学的流れとして予測(あるいは復号化)できることを示す。
動き条件付き映像拡散モデルを用いて静的画像をリアルにアニメーションできることを示す。
この研究は、人間の脳がどのように視覚情報を動的に処理するかを解釈するための新しい枠組みを提供する。
- 参考スコア(独自算出の注目度): 36.04425924379253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans experience the world through constantly changing visual stimuli, where scenes can shift and move, change in appearance, and vary in distance. The dynamic nature of visual perception is a fundamental aspect of our daily lives, yet the large majority of research on object and scene processing, particularly using fMRI, has focused on static stimuli. While studies of static image perception are attractive due to their computational simplicity, they impose a strong non-naturalistic constraint on our investigation of human vision. In contrast, dynamic visual stimuli offer a more ecologically-valid approach but present new challenges due to the interplay between spatial and temporal information, making it difficult to disentangle the representations of stable image features and motion. To overcome this limitation -- given dynamic inputs, we explicitly decouple the modeling of static image representations and motion representations in the human brain. Three results demonstrate the feasibility of this approach. First, we show that visual motion information as optical flow can be predicted (or decoded) from brain activity as measured by fMRI. Second, we show that this predicted motion can be used to realistically animate static images using a motion-conditioned video diffusion model (where the motion is driven by fMRI brain activity). Third, we show prediction in the reverse direction: existing video encoders can be fine-tuned to predict fMRI brain activity from video imagery, and can do so more effectively than image encoders. This foundational work offers a novel, extensible framework for interpreting how the human brain processes dynamic visual information.
- Abstract(参考訳): 人間は、常に変化する視覚刺激を通して世界を経験し、シーンはシフトしたり移動したり、外観を変えたり、距離を変えたりすることができる。
視覚知覚のダイナミックな性質は、私たちの日常生活の基本的な側面であるが、物体やシーン処理、特にfMRIを用いた研究の大部分は、静的刺激に焦点を当てている。
静的画像知覚の研究は、計算の単純さから魅力的であるが、人間の視覚の研究に強い非自然主義的制約を課している。
対照的に、動的視覚刺激は、より生態学的に有意なアプローチを提供するが、空間的情報と時間的情報との相互作用による新たな課題を呈し、安定した画像の特徴や動きの表現を解き放つことは困難である。
この制限を克服するために、動的入力が与えられた場合、静的な画像表現と人間の脳における動き表現のモデリングを明示的に分離する。
3つの結果は、このアプローチの実現可能性を示している。
まず、fMRIによって計測された脳活動から視運動情報を光学的流れとして予測(あるいは復号化)できることを示す。
第2に、この予測された動きは、運動条件付きビデオ拡散モデル(動きはfMRI脳活動によって駆動される)を用いて、静的画像を現実的にアニメーションすることができることを示す。
既存のビデオエンコーダは、ビデオ画像からfMRI脳活動を予測するために微調整が可能であり、画像エンコーダよりも効果的に行うことができる。
この基礎研究は、人間の脳がどのように視覚情報を動的に処理するかを解釈するための、新しく拡張可能な枠組みを提供する。
関連論文リスト
- Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models [2.790870674964473]
自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。
提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-07-15T14:06:13Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.291585611137355]
脳活動から人間のダイナミックビジョンを再構築することは、科学的に重要な課題である。
本稿では,3つの公開データセット上での最先端性能を実現する2段階モデルであるMind-Animatorを提案する。
我々は、再構成された映像力学は、生成モデルの幻覚ではなく、fMRIから導出されるものであることを裏付ける。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。