論文の概要: Do vision models perceive illusory motion in static images like humans?
- arxiv url: http://arxiv.org/abs/2604.09853v1
- Date: Fri, 10 Apr 2026 19:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.710451
- Title: Do vision models perceive illusory motion in static images like humans?
- Title(参考訳): 視覚モデルでは、人間のような静止画像の視覚運動が知覚されるか?
- Authors: Isabella Elaine Rosario, Fan L. Cheng, Zitang Sun, Nikolaus Kriegeskorte,
- Abstract要約: ディープニューラルネットワーク(DNN)は、光学的フロー推定において高い性能を達成するが、人間よりも堅牢性は低い。
視覚運動錯覚はこれらのメカニズムに強力なプローブを与え、人間と機械の視覚がどのように整列するか、あるいは分岐するかを明らかにする。
回転するスネークス上での代表的な光フローモデルを評価し,人間の知覚に整合した流れ場の生成に失敗することが多いことを示す。
- 参考スコア(独自算出の注目度): 2.1349209400003932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human motion processing is essential for building reliable, human-centered computer vision systems. Although deep neural networks (DNNs) achieve strong performance in optical flow estimation, they remain less robust than humans and rely on fundamentally different computational strategies. Visual motion illusions provide a powerful probe into these mechanisms, revealing how human and machine vision align or diverge. While recent DNN-based motion models can reproduce dynamic illusions such as reverse-phi, it remains unclear whether they can perceive illusory motion in static images, exemplified by the Rotating Snakes illusion. We evaluate several representative optical flow models on Rotating Snakes and show that most fail to generate flow fields consistent with human perception. Under simulated conditions mimicking saccadic eye movements, only the human-inspired Dual-Channel model exhibits the expected rotational motion, with the closest correspondence emerging during the saccade simulation. Ablation analyses further reveal that both luminance-based and higher-order color--feature--based motion signals contribute to this behavior and that a recurrent attention mechanism is critical for integrating local cues. Our results highlight a substantial gap between current optical-flow models and human visual motion processing, and offer insights for developing future motion-estimation systems with improved correspondence to human perception and human-centric AI.
- Abstract(参考訳): 人間の動きの処理を理解することは、人間中心のコンピュータビジョンシステムを構築するのに不可欠である。
深層ニューラルネットワーク(DNN)は光フロー推定において強い性能を発揮するが、それらは人間よりも頑健であり、根本的に異なる計算戦略に依存している。
視覚運動錯覚はこれらのメカニズムに強力なプローブを与え、人間と機械の視覚がどのように整列するか、あるいは分岐するかを明らかにする。
最近のDNNベースの運動モデルでは、逆フィのようなダイナミックな錯覚を再現できるが、回転スネークス錯覚によって例示される静止画像において、照明的な動きを知覚できるかどうかは不明である。
回転するスネークス上での代表的な光フローモデルを評価し,人間の知覚に整合した流れ場の生成に失敗することが多いことを示す。
サケードの眼球運動を模倣する模擬条件下では、ヒトにインスパイアされたDual-Channelモデルのみが期待される回転運動を示し、サケードシミュレーション中に最も近い対応が現れる。
アブレーション解析により、輝度ベースと高次カラーベースの両方のモーション信号がこの挙動に寄与し、局所的な手がかりを統合する上では、繰り返し注意機構が重要であることが明らかとなった。
この結果から、現在の光フローモデルと人間の視覚運動処理のギャップが顕著であり、人間の知覚と人間中心のAIとの対応性を改善した将来の動き推定システムの開発のための洞察を提供する。
関連論文リスト
- Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。
われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2026-03-22T04:18:54Z) - MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Machine Learning Modeling for Multi-order Human Visual Motion Processing [5.043066132820344]
この研究は、人間のように視覚的な動きを知覚する機械を開発することを目的としている。
我々のモデルアーキテクチャは皮質V1-MT運動処理経路を模倣する。
移動物体の材質特性の異なる新しい運動データセットを用いて2経路モデルを訓練した。
論文 参考訳(メタデータ) (2025-01-22T11:41:41Z) - Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli [10.978614683038758]
ゼロショット図形-地上セグメンテーションのための広い範囲の光学フローモデルと神経科学による運動エネルギーモデルを評価する。
異なるデータセットでトレーニングされた40の深い光フローモデルの断面は、ランダムなドットビデオの動作パターンを推定するのに苦労している。
この神経科学にインスパイアされたモデルは、現在のコンピュータビジョンモデルにおけるランダムドット刺激に対する人間のようなゼロショット一般化の欠如にうまく対処する。
論文 参考訳(メタデータ) (2024-11-03T09:59:45Z) - Reanimating Images using Neural Representations of Dynamic Stimuli [36.04425924379253]
脳NRDS(Brain-Neural Representations of Dynamic Stimuli)は、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかを理解する。
動的視覚刺激に対する人間の反応をより深く理解するためにfMRI脳活動を利用する。
脳画像とビデオ拡散モデルを組み合わせることで、より堅牢で生物学的にインスパイアされたコンピュータビジョンシステムの開発の可能性を示す。
論文 参考訳(メタデータ) (2024-06-04T17:59:49Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。