論文の概要: Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network
- arxiv url: http://arxiv.org/abs/2305.09156v2
- Date: Fri, 10 Nov 2023 03:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:16:13.495842
- Title: Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network
- Title(参考訳): トレーニング可能な運動エネルギーセンシングと自己注意ネットワークによる人間の視覚運動処理のモデル化
- Authors: Zitang Sun, Yen-Ju Chen, Yung-hao Yang, Shin'ya Nishida
- Abstract要約: 本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
- 参考スコア(独自算出の注目度): 1.9458156037869137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual motion processing is essential for humans to perceive and interact
with dynamic environments. Despite extensive research in cognitive
neuroscience, image-computable models that can extract informative motion flow
from natural scenes in a manner consistent with human visual processing have
yet to be established. Meanwhile, recent advancements in computer vision (CV),
propelled by deep learning, have led to significant progress in optical flow
estimation, a task closely related to motion perception. Here we propose an
image-computable model of human motion perception by bridging the gap between
biological and CV models. Specifically, we introduce a novel two-stages
approach that combines trainable motion energy sensing with a recurrent
self-attention network for adaptive motion integration and segregation. This
model architecture aims to capture the computations in V1-MT, the core
structure for motion perception in the biological visual system, while
providing the ability to derive informative motion flow for a wide range of
stimuli, including complex natural scenes. In silico neurophysiology reveals
that our model's unit responses are similar to mammalian neural recordings
regarding motion pooling and speed tuning. The proposed model can also
replicate human responses to a range of stimuli examined in past psychophysical
studies. The experimental results on the Sintel benchmark demonstrate that our
model predicts human responses better than the ground truth, whereas the
state-of-the-art CV models show the opposite. Our study provides a
computational architecture consistent with human visual motion processing,
although the physiological correspondence may not be exact.
- Abstract(参考訳): 視覚運動処理は、人間が動的環境を知覚し、相互作用することが不可欠である。
認知神経科学の広範な研究にもかかわらず、人間の視覚処理と整合した自然なシーンから情報的な動きの流れを抽出できる画像計算モデルはまだ確立されていない。
一方で、ディープラーニングによって推進されるコンピュータビジョン(cv)の最近の進歩は、運動知覚に密接なタスクである光フロー推定の著しい進歩をもたらした。
本稿では,生体モデルとcvモデルのギャップを橋渡しし,人間の運動知覚の画像処理モデルを提案する。
具体的には,適応的動作統合と分離のために,学習可能な運動エネルギーセンシングと再帰的自己アテンションネットワークを組み合わせた新しい2段階アプローチを提案する。
このモデルアーキテクチャは、生体視覚系における運動知覚のコア構造であるV1-MTの計算を捉えることを目的としており、複雑な自然シーンを含む幅広い刺激に対する情報伝達運動の流れを導出する能力を提供する。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングとスピードチューニングに関する哺乳類の神経記録に類似していることが明らかとなった。
提案モデルは、過去の心理物理学研究で検討された様々な刺激に対するヒトの反応を再現することもできる。
Sintelベンチマークによる実験結果から,現状のCVモデルは逆であるのに対し,本モデルでは人間の反応を地上の真理より正確に予測することを示した。
本研究は人間の視覚運動処理と整合した計算アーキテクチャを提供するが、生理的対応は正確ではないかもしれない。
関連論文リスト
- Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli [10.978614683038758]
ゼロショット図形-地上セグメンテーションのための広い範囲の光学フローモデルと神経科学による運動エネルギーモデルを評価する。
異なるデータセットでトレーニングされた40の深い光フローモデルの断面は、ランダムなドットビデオの動作パターンを推定するのに苦労している。
この神経科学にインスパイアされたモデルは、現在のコンピュータビジョンモデルにおけるランダムドット刺激に対する人間のようなゼロショット一般化の欠如にうまく対処する。
論文 参考訳(メタデータ) (2024-11-03T09:59:45Z) - Neural Dynamics Model of Visual Decision-Making: Learning from Human Experts [28.340344705437758]
視覚入力から行動出力まで,包括的な視覚的意思決定モデルを実装した。
我々のモデルは人間の行動と密接に一致し、霊長類の神経活動を反映する。
ニューロイメージング・インフォームド・ファインチューニング手法を導入し、モデルに適用し、性能改善を実現した。
論文 参考訳(メタデータ) (2024-09-04T02:38:52Z) - Time-Dependent VAE for Building Latent Representations from Visual Neural Activity with Complex Dynamics [25.454851828755054]
TiDeSPL-VAEは複雑な視覚神経活動を効果的に分析し、自然な方法で時間的関係をモデル化することができる。
結果から,本モデルは自然主義的なシーン/ムーブメントにおいて最高の復号性能を得るだけでなく,明示的なニューラルダイナミクスを抽出することがわかった。
論文 参考訳(メタデータ) (2024-08-15T03:27:23Z) - Neural Representations of Dynamic Visual Stimuli [36.04425924379253]
fMRIで測定した脳活動から視運動情報を光学的流れとして予測(あるいは復号化)できることを示す。
動き条件付き映像拡散モデルを用いて静的画像をリアルにアニメーションできることを示す。
この研究は、人間の脳がどのように視覚情報を動的に処理するかを解釈するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-04T17:59:49Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Learning Local Recurrent Models for Human Mesh Recovery [50.85467243778406]
本稿では,人間のメッシュを標準的な骨格モデルに従って複数の局所的に分割するビデオメッシュ復元手法を提案する。
次に、各局所部分の力学を別個のリカレントモデルでモデル化し、各モデルは、人体の既知の運動構造に基づいて適切に条件付けする。
これにより、構造的インフォームドな局所的再帰学習アーキテクチャが実現され、アノテーションを使ってエンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-07-27T14:30:33Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。
UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文 参考訳(メタデータ) (2020-11-30T18:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。