論文の概要: Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli
- arxiv url: http://arxiv.org/abs/2411.01505v1
- Date: Sun, 03 Nov 2024 09:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:53.770181
- Title: Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli
- Title(参考訳): 共通の運命からのオブジェクトセグメンテーション: 運動エネルギー処理は、ランダムドット刺激に対する人間のようなゼロショットの一般化を可能にする
- Authors: Matthias Tangemann, Matthias Kümmerer, Matthias Bethge,
- Abstract要約: ゼロショット図形-地上セグメンテーションのための広い範囲の光学フローモデルと神経科学による運動エネルギーモデルを評価する。
異なるデータセットでトレーニングされた40の深い光フローモデルの断面は、ランダムなドットビデオの動作パターンを推定するのに苦労している。
この神経科学にインスパイアされたモデルは、現在のコンピュータビジョンモデルにおけるランダムドット刺激に対する人間のようなゼロショット一般化の欠如にうまく対処する。
- 参考スコア(独自算出の注目度): 10.978614683038758
- License:
- Abstract: Humans excel at detecting and segmenting moving objects according to the Gestalt principle of "common fate". Remarkably, previous works have shown that human perception generalizes this principle in a zero-shot fashion to unseen textures or random dots. In this work, we seek to better understand the computational basis for this capability by evaluating a broad range of optical flow models and a neuroscience inspired motion energy model for zero-shot figure-ground segmentation of random dot stimuli. Specifically, we use the extensively validated motion energy model proposed by Simoncelli and Heeger in 1998 which is fitted to neural recordings in cortex area MT. We find that a cross section of 40 deep optical flow models trained on different datasets struggle to estimate motion patterns in random dot videos, resulting in poor figure-ground segmentation performance. Conversely, the neuroscience-inspired model significantly outperforms all optical flow models on this task. For a direct comparison to human perception, we conduct a psychophysical study using a shape identification task as a proxy to measure human segmentation performance. All state-of-the-art optical flow models fall short of human performance, but only the motion energy model matches human capability. This neuroscience-inspired model successfully addresses the lack of human-like zero-shot generalization to random dot stimuli in current computer vision models, and thus establishes a compelling link between the Gestalt psychology of human object perception and cortical motion processing in the brain. Code, models and datasets are available at https://github.com/mtangemann/motion_energy_segmentation
- Abstract(参考訳): 人間は「共通の運命」というゲシュタルトの原理に従って動く物体を検知し、分断するのが得意である。
以前の研究では、人間の知覚がゼロショット方式でこの原理を一般化し、目に見えないテクスチャやランダムドットを一般化していた。
本研究では,ランダムドット刺激のゼロショットフィギュア-グラウンドセグメンテーションのための広い範囲の光学フローモデルと神経科学にインスパイアされた運動エネルギーモデルを評価することにより,この能力の計算基盤をよりよく理解することを目的とする。
具体的には,1998年にSimoncelli と Heeger が提唱した広範囲に検証された運動エネルギーモデルを用いて,大脳皮質領域 MT の神経記録に適合する。
逆に、神経科学にインスパイアされたモデルは、このタスクにおけるすべての光学フローモデルよりも大幅に優れている。
人間の知覚と直接的に比較するために,人間のセグメンテーション性能を測定するプロキシとして形状識別タスクを用いて心理物理学的な研究を行う。
最先端の光学フローモデルは全て人間の性能に欠けるが、運動エネルギーモデルのみが人間の能力と一致する。
この神経科学にインスパイアされたモデルは、現在のコンピュータビジョンモデルにおいて、人間のようなゼロショットの一般化がランダムドット刺激に欠如していることに対処し、人間の物体知覚のゲシュタルト心理学と脳の皮質運動処理との間に魅力的な関連性を確立する。
コード、モデル、データセットはhttps://github.com/mtangemann/motion_energy_segmentationで入手できる。
関連論文リスト
- Machine Learning Modeling for Multi-order Human Visual Motion Processing [5.043066132820344]
この研究は、人間のように視覚的な動きを知覚する機械を開発することを目的としている。
我々のモデルアーキテクチャは皮質V1-MT運動処理経路を模倣する。
移動物体の材質特性の異なる新しい運動データセットを用いて2経路モデルを訓練した。
論文 参考訳(メタデータ) (2025-01-22T11:41:41Z) - HUMOS: Human Motion Model Conditioned on Body Shape [54.20419874234214]
身体形状に基づく生成運動モデルを構築するための新しいアプローチを提案する。
非ペアデータを使ってこのモデルをトレーニングすることが可能であることを示す。
得られたモデルは、多種多様で、物理的に妥当で、動的に安定した人間の動きを生成する。
論文 参考訳(メタデータ) (2024-09-05T23:50:57Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - From Motion to Muscle [0.0]
筋活動は, 位置, 速度, 加速度などの運動特徴に基づいて人工的に生成できることを示す。
このモデルは、以前に訓練された運動に対して顕著な精度を達成し、これまで訓練されていない新しい運動に対して非常に高い精度を維持している。
論文 参考訳(メタデータ) (2022-01-27T13:30:17Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Learning Local Recurrent Models for Human Mesh Recovery [50.85467243778406]
本稿では,人間のメッシュを標準的な骨格モデルに従って複数の局所的に分割するビデオメッシュ復元手法を提案する。
次に、各局所部分の力学を別個のリカレントモデルでモデル化し、各モデルは、人体の既知の運動構造に基づいて適切に条件付けする。
これにより、構造的インフォームドな局所的再帰学習アーキテクチャが実現され、アノテーションを使ってエンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-07-27T14:30:33Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。