論文の概要: Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception
- arxiv url: http://arxiv.org/abs/2405.16493v2
- Date: Wed, 30 Oct 2024 16:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:22:55.405969
- Title: Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception
- Title(参考訳): Flow Snapshot Neurons in Action:Deep Neural Networksによる生体運動知覚の一般化
- Authors: Shuangpeng Han, Ziyu Wang, Mengmi Zhang,
- Abstract要約: 生物学的運動知覚(BMP)とは、人間の行動パターンからのみ生物の行動を認識し、認識する能力である。
本稿では,ビデオクリップからのパッチレベルの光フローを入力として利用するMotion Perceiver (MP)を提案する。
MPは、トップ1アクション認識精度が最大29%向上した既存のAIモデルすべてを上回っている。
- 参考スコア(独自算出の注目度): 6.359236783105098
- License:
- Abstract: Biological motion perception (BMP) refers to humans' ability to perceive and recognize the actions of living beings solely from their motion patterns, sometimes as minimal as those depicted on point-light displays. While humans excel at these tasks without any prior training, current AI models struggle with poor generalization performance. To close this research gap, we propose the Motion Perceiver (MP). MP solely relies on patch-level optical flows from video clips as inputs. During training, it learns prototypical flow snapshots through a competitive binding mechanism and integrates invariant motion representations to predict action labels for the given video. During inference, we evaluate the generalization ability of all AI models and humans on 62,656 video stimuli spanning 24 BMP conditions using point-light displays in neuroscience. Remarkably, MP outperforms all existing AI models with a maximum improvement of 29% in top-1 action recognition accuracy on these conditions. Moreover, we benchmark all AI models in point-light displays of two standard video datasets in computer vision. MP also demonstrates superior performance in these cases. More interestingly, via psychophysics experiments, we found that MP recognizes biological movements in a way that aligns with human behaviors. Our data and code are available at https://github.com/ZhangLab-DeepNeuroCogLab/MotionPerceiver.
- Abstract(参考訳): 生物学的運動知覚(BMP)とは、人間の行動パターンのみから生物の行動を知覚し、認識する能力のこと。
人間は事前のトレーニングなしにこれらのタスクを遂行するが、現在のAIモデルは一般化性能の貧弱さに苦慮している。
この研究ギャップを埋めるため、我々はMotion Perceiver (MP)を提案する。
MPは、ビデオクリップからのパッチレベルの光学フローを入力としてのみ依存する。
トレーニング中は、競争力のあるバインディング機構を通じてプロトタイプフロースナップショットを学び、不変なモーション表現を統合して、与えられたビデオのアクションラベルを予測する。
推測中,神経科学におけるポイントライト表示を用いて,24BMPの条件にまたがる62,656個のビデオ刺激に対して,全AIモデルと人間の一般化能力を評価する。
注目すべきは、MPが既存のAIモデルをすべて上回り、これらの条件下ではトップ1アクション認識精度が最大29%向上していることだ。
さらに、コンピュータビジョンにおける2つの標準ビデオデータセットのポイントライトディスプレイにおいて、すべてのAIモデルをベンチマークする。
MPはまた、これらのケースで優れたパフォーマンスを示している。
さらに興味深いことに、心理学的な実験を通して、MPは人間の行動に合わせた生物学的な動きを認識していることがわかった。
我々のデータとコードはhttps://github.com/ZhangLab-DeepNeuroCogLab/MotionPerceiver.comから入手可能です。
関連論文リスト
- Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli [10.978614683038758]
ゼロショット図形-地上セグメンテーションのための広い範囲の光学フローモデルと神経科学による運動エネルギーモデルを評価する。
異なるデータセットでトレーニングされた40の深い光フローモデルの断面は、ランダムなドットビデオの動作パターンを推定するのに苦労している。
この神経科学にインスパイアされたモデルは、現在のコンピュータビジョンモデルにおけるランダムドット刺激に対する人間のようなゼロショット一般化の欠如にうまく対処する。
論文 参考訳(メタデータ) (2024-11-03T09:59:45Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - GiMeFive: Towards Interpretable Facial Emotion Classification [1.1468563069298348]
深層畳み込みニューラルネットワークは、顔の感情をうまく認識することが示されている。
本稿では,階層アクティベーションと勾配重み付きクラスマッピングを用いたGiMeFiveモデルを提案する。
実験結果から,本モデルでは従来の手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2024-02-24T00:37:37Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。