論文の概要: Machine Learning Modeling for Multi-order Human Visual Motion Processing
- arxiv url: http://arxiv.org/abs/2501.12810v1
- Date: Wed, 22 Jan 2025 11:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:51.410831
- Title: Machine Learning Modeling for Multi-order Human Visual Motion Processing
- Title(参考訳): 多階人間の視覚運動処理のための機械学習モデリング
- Authors: Zitang Sun, Yen-Ju Chen, Yung-Hao Yang, Yuan Li, Shin'ya Nishida,
- Abstract要約: この研究は、人間のように視覚的な動きを知覚する機械を開発することを目的としている。
我々のモデルアーキテクチャは皮質V1-MT運動処理経路を模倣する。
移動物体の材質特性の異なる新しい運動データセットを用いて2経路モデルを訓練した。
- 参考スコア(独自算出の注目度): 5.043066132820344
- License:
- Abstract: Our research aims to develop machines that learn to perceive visual motion as do humans. While recent advances in computer vision (CV) have enabled DNN-based models to accurately estimate optical flow in naturalistic images, a significant disparity remains between CV models and the biological visual system in both architecture and behavior. This disparity includes humans' ability to perceive the motion of higher-order image features (second-order motion), which many CV models fail to capture because of their reliance on the intensity conservation law. Our model architecture mimics the cortical V1-MT motion processing pathway, utilizing a trainable motion energy sensor bank and a recurrent graph network. Supervised learning employing diverse naturalistic videos allows the model to replicate psychophysical and physiological findings about first-order (luminance-based) motion perception. For second-order motion, inspired by neuroscientific findings, the model includes an additional sensing pathway with nonlinear preprocessing before motion energy sensing, implemented using a simple multilayer 3D CNN block. When exploring how the brain acquired the ability to perceive second-order motion in natural environments, in which pure second-order signals are rare, we hypothesized that second-order mechanisms were critical when estimating robust object motion amidst optical fluctuations, such as highlights on glossy surfaces. We trained our dual-pathway model on novel motion datasets with varying material properties of moving objects. We found that training to estimate object motion from non-Lambertian materials naturally endowed the model with the capacity to perceive second-order motion, as can humans. The resulting model effectively aligns with biological systems while generalizing to both first- and second-order motion phenomena in natural scenes.
- Abstract(参考訳): 我々の研究は、人間のように視覚的な動きを知覚する機械を開発することを目的としている。
近年のコンピュータビジョン(CV)の進歩により、DNNベースのモデルは自然視画像の光学的流れを正確に推定できるようになったが、CVモデルとアーキテクチャと行動の両方における生物学的視覚システムの間には大きな相違が残っている。
この格差には、高階画像の特徴(二階画像)の運動を知覚する人間の能力が含まれており、多くのCVモデルは、強度保存法に依存しているため、キャプチャーに失敗している。
我々のモデルアーキテクチャは、トレーニング可能な運動エネルギーセンサバンクとリカレントグラフネットワークを利用して、皮質V1-MT運動処理経路を模倣する。
多様な自然主義的ビデオを用いた教師付き学習は、第一次(輝度に基づく)運動知覚に関する心理学的および生理学的発見を再現することを可能にする。
神経科学的な発見にインスパイアされた2次運動に対しては、単純な多層CNNブロックを用いて実装された、運動エネルギーセンシングの前に非線形前処理を伴う追加のセンシング経路を含む。
脳が自然環境において、純粋な2階信号が希少である2階運動を知覚する能力を得る方法を探る際に、光沢のある表面のハイライトなどの光学的ゆらぎの中で頑健な物体の動きを推定する際に、2階のメカニズムが重要であると仮定した。
移動物体の材質特性の異なる新しい運動データセットを用いて2経路モデルを訓練した。
その結果、非ランベルト材料から物体の動きを推定する訓練は、人間のように二階運動を知覚する能力を持つモデルに自然に寄与していることがわかった。
結果として得られるモデルは、自然界における1階と2階の両方の運動現象を一般化しながら、生物学的システムと効果的に整合する。
関連論文リスト
- Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli [10.978614683038758]
ゼロショット図形-地上セグメンテーションのための広い範囲の光学フローモデルと神経科学による運動エネルギーモデルを評価する。
異なるデータセットでトレーニングされた40の深い光フローモデルの断面は、ランダムなドットビデオの動作パターンを推定するのに苦労している。
この神経科学にインスパイアされたモデルは、現在のコンピュータビジョンモデルにおけるランダムドット刺激に対する人間のようなゼロショット一般化の欠如にうまく対処する。
論文 参考訳(メタデータ) (2024-11-03T09:59:45Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - Reanimating Images using Neural Representations of Dynamic Stimuli [36.04425924379253]
動画拡散モデルは、静止画像表現とモーション生成を分離するために使用される。
ブレインデコードされたモーション信号は、ビデオの初期フレームのみに基づいて、リアルなビデオ再アニメーションを可能にする。
この枠組みは、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかの理解を深める。
論文 参考訳(メタデータ) (2024-06-04T17:59:49Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Skeleton2Humanoid: Animating Simulated Characters for
Physically-plausible Motion In-betweening [59.88594294676711]
現代の深層学習に基づく運動合成アプローチは、合成された運動の物理的妥当性をほとんど考慮していない。
テスト時に物理指向の動作補正を行うシステムSkeleton2Humanoid'を提案する。
挑戦的なLaFAN1データセットの実験は、物理的妥当性と精度の両方の観点から、我々のシステムが先行手法を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-09T16:15:34Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。