論文の概要: Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception
- arxiv url: http://arxiv.org/abs/2405.16493v1
- Date: Sun, 26 May 2024 09:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:58:51.621179
- Title: Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception
- Title(参考訳): Flow Snapshot Neurons in Action:Deep Neural Networksによる生体運動知覚の一般化
- Authors: Shuangpeng Han, Ziyu Wang, Mengmi Zhang,
- Abstract要約: 生物学的運動知覚(BMP)とは、人間の行動パターンからのみ生物の行動を認識し、認識する能力である。
現在のAIモデルは、一般化性能の低さに苦慮している。
本稿では,ビデオクリップからのパッチレベルの光フローを入力として利用するMotion Perceiver (MP)を提案する。
- 参考スコア(独自算出の注目度): 6.359236783105098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biological motion perception (BMP) refers to humans' ability to perceive and recognize the actions of living beings solely from their motion patterns, sometimes as minimal as those depicted on point-light displays. While humans excel at these tasks without any prior training, current AI models struggle with poor generalization performance. To close this research gap, we propose the Motion Perceiver (MP). MP solely relies on patch-level optical flows from video clips as inputs. During training, it learns prototypical flow snapshots through a competitive binding mechanism and integrates invariant motion representations to predict action labels for the given video. During inference, we evaluate the generalization ability of all AI models and humans on 62,656 video stimuli spanning 24 BMP conditions using point-light displays in neuroscience. Remarkably, MP outperforms all existing AI models with a maximum improvement of 29% in top-1 action recognition accuracy on these conditions. Moreover, we benchmark all AI models in point-light displays of two standard video datasets in computer vision. MP also demonstrates superior performance in these cases. More interestingly, via psychophysics experiments, we found that MP recognizes biological movements in a way that aligns with human behavioural data. All data and code will be made public.
- Abstract(参考訳): 生物学的運動知覚(BMP)とは、人間の行動パターンのみから生物の行動を知覚し、認識する能力のこと。
人間は事前のトレーニングなしにこれらのタスクを遂行するが、現在のAIモデルは一般化性能の貧弱さに苦慮している。
この研究ギャップを埋めるため、我々はMotion Perceiver (MP)を提案する。
MPは、ビデオクリップからのパッチレベルの光学フローを入力としてのみ依存する。
トレーニング中は、競争力のあるバインディング機構を通じてプロトタイプフロースナップショットを学び、不変なモーション表現を統合して、与えられたビデオのアクションラベルを予測する。
推測中,神経科学におけるポイントライト表示を用いて,24BMPの条件にまたがる62,656個のビデオ刺激に対して,全AIモデルと人間の一般化能力を評価する。
注目すべきは、MPが既存のAIモデルをすべて上回り、これらの条件下ではトップ1アクション認識精度が最大29%向上していることだ。
さらに、コンピュータビジョンにおける2つの標準ビデオデータセットのポイントライトディスプレイにおいて、すべてのAIモデルをベンチマークする。
MPはまた、これらのケースで優れたパフォーマンスを示している。
さらに興味深いことに、精神物理学の実験を通して、MPは人間の行動データと一致する方法で生物学的な動きを認識していることがわかった。
すべてのデータとコードは公開されます。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - GiMeFive: Towards Interpretable Facial Emotion Classification [1.1468563069298348]
深層畳み込みニューラルネットワークは、顔の感情をうまく認識することが示されている。
本稿では,階層アクティベーションと勾配重み付きクラスマッピングを用いたGiMeFiveモデルを提案する。
実験結果から,本モデルでは従来の手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2024-02-24T00:37:37Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - GazeMAE: General Representations of Eye Movements using a Micro-Macro
Autoencoder [0.0]
本研究では,視線行動における重要なニュアンスを刺激非依存に保った眼球運動の抽象表現を提案する。
眼球運動を生の位置と速度の信号とみなし、深部側頭葉畳み込みオートエンコーダを訓練する。
オートエンコーダは、目の動きの速い特徴と遅い特徴に対応するマイクロスケールとマクロスケールの表現を学習する。
論文 参考訳(メタデータ) (2020-09-05T02:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。