論文の概要: Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations
- arxiv url: http://arxiv.org/abs/2603.08317v1
- Date: Mon, 09 Mar 2026 12:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.989241
- Title: Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations
- Title(参考訳): 空間的・時空間的操作によるエゴ中心行動認識におけるAIの多様性
- Authors: Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert,
- Abstract要約: 人間は、アクション認識における最先端のAIモデルよりも一貫して優れています。
最小認識クロック(MIRC)を用いたegoの大規模人間-AI比較研究について述べる。
我々は,MIRCsからサブMIRCsへの移行に伴って,ヒトのパフォーマンスが急激な低下を示すことを示した。
- 参考スコア(独自算出の注目度): 12.465670388296239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans consistently outperform state-of-the-art AI models in action recognition, particularly in challenging real-world conditions involving low resolution, occlusion, and visual clutter. Understanding the sources of this performance gap is essential for developing more robust and human-aligned models. In this paper, we present a large-scale human-AI comparative study of egocentric action recognition using Minimal Identifiable Recognition Crops (MIRCs), defined as the smallest spatial or spatiotemporal regions sufficient for reliable human recognition. We used our previously introduced, Epic ReduAct, a systematically spatially reduced and temporally scrambled dataset derived from 36 EPIC KITCHENS videos, spanning multiple spatial reduction levels and temporal conditions. Recognition performance is evaluated using over 3,000 human participants and the Side4Video model. Our analysis combines quantitative metrics, Average Reduction Rate and Recognition Gap, with qualitative analyses of spatial (high-, mid-, and low-level visual features) and spatiotemporal factors, including a categorisation of actions into Low Temporal Actions (LTA) and High Temporal Actions (HTA). Results show that human performance exhibits sharp declines when transitioning from MIRCs to subMIRCs, reflecting a strong reliance on sparse, semantically critical cues such as hand-object interactions. In contrast, the model degrades more gradually and often relies on contextual and mid- to low-level features, sometimes even exhibiting increased confidence under spatial reduction. Temporally, humans remain robust to scrambling when key spatial cues are preserved, whereas the model often shows insensitivity to temporal disruption, revealing class-dependent temporal sensitivities.
- Abstract(参考訳): 人間は、アクション認識における最先端のAIモデル、特に低解像度、オクルージョン、視覚的クラッタを含む現実世界の状況において、一貫して上回る。
このパフォーマンスギャップの原因を理解することは、より堅牢で人間に沿ったモデルを開発するために不可欠です。
本稿では,人間認識に十分な空間的・時空間的領域を最小に定義したMIRC(Minimmal Identible Recognition Crops)を用いた,人間中心型行動認識の大規模人間AI比較研究を提案する。
先程紹介したEpic ReduActは,36のEPIC KITCHENSビデオから得られた,組織的に空間的に縮小・時間的にスクランブルされたデータセットで,複数の空間的低減レベルと時間的条件にまたがる。
認識性能は、3000人以上の被験者とSide4Videoモデルを用いて評価される。
本分析は,空間的(高,中,低レベルの視覚的特徴)と時空間的(高,中,低レベルの視覚的特徴)の質的分析と,低テンポラル行動(LTA)と高テンポラル行動(HTA)への行動の分類を含む時空間的要因の定量化を組み合わせた。
その結果,MIRCsからサブMIRCsへの移行に伴う人為的パフォーマンスの低下は顕著であり,手・物間相互作用などの意味論的に重要な手がかりに強く依存していることが示唆された。
対照的に、モデルは徐々に劣化し、しばしば文脈的、中~低レベルの特徴に依存し、時として空間的縮小の下での信頼感が増す。
時として、鍵となる空間的手がかりが保存されているとき、人間は揺らぎに頑健であり、一方でモデルは時間的破壊に敏感で、クラス依存の時間的感受性を示すことが多い。
関連論文リスト
- Unleashing Temporal Capacity of Spiking Neural Networks through Spatiotemporal Separation [67.69345363409835]
スパイキングニューラルネットワーク(SNN)は、時間的処理に自然に適していると考えられており、膜電位の伝播は、コア時間的モデリングメカニズムとして広く見なされている。
我々は, 膜伝播を段階的に段階的に除去する非ステートフル(NS)モデルの設計を行った。
論文 参考訳(メタデータ) (2025-12-05T07:05:53Z) - Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos [4.872114804382539]
実世界の人間の行動の学習された潜在空間から導かれる新しい評価基準を導入する。
本手法は、外見に依存しない人間の骨格幾何学的特徴と外見に基づく特徴を融合させることにより、実世界の動きのニュアンス、制約、時間的滑らかさをまず捉える。
生成した映像から,この学習された実世界の行動分布との距離を計測することにより,その行動の質を定量化する。
論文 参考訳(メタデータ) (2025-12-01T15:36:33Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Human Activity Recognition Using Cascaded Dual Attention CNN and
Bi-Directional GRU Framework [3.3721926640077795]
視覚に基づく人間の活動認識は、ビデオ分析領域において重要な研究領域の1つとして現れてきた。
本稿では,人間の行動認識における深部識別的空間的特徴と時間的特徴を利用した,計算的に効率的だが汎用的な空間時空間カスケードフレームワークを提案する。
提案手法は, 従来の動作認識手法と比較して, フレーム毎秒最大167倍の性能向上を実現している。
論文 参考訳(メタデータ) (2022-08-09T20:34:42Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Human Activity Recognition from Wearable Sensor Data Using
Self-Attention [2.9023633922848586]
本稿では,身体のセンサデータから行動認識のための自己認識型ニューラルネットワークモデルを提案する。
一般に公開されている4つのHARデータセット、PAMAP2、Opportunity、Skoda、USC-HADについて実験を行った。
ベンチマークテスト対象とLeave-out-subject評価の両方において,最近の最先端モデルよりも高い性能向上を実現している。
論文 参考訳(メタデータ) (2020-03-17T14:16:57Z) - Human Action Recognition and Assessment via Deep Neural Network
Self-Organization [0.0]
本章では,深度マップとRGB画像からの行動の学習と認識のための階層モデルを紹介する。
これらのモデルの特徴は、非定常分布に迅速に適応する自己組織化ネットワークの利用である。
論文 参考訳(メタデータ) (2020-01-04T15:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。