論文の概要: Appearance-free Action Recognition: Zero-shot Generalization in Humans and a Two-Pathway Model
- arxiv url: http://arxiv.org/abs/2604.16675v1
- Date: Fri, 17 Apr 2026 20:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.124265
- Title: Appearance-free Action Recognition: Zero-shot Generalization in Humans and a Two-Pathway Model
- Title(参考訳): 無表情行動認識:人間におけるゼロショット一般化と2経路モデル
- Authors: Prerana Kumar, Martin A. Giese,
- Abstract要約: 我々は,RGBストリームと光フローストリームを組み合わせた2経路3次元CNNモデルを開発した。
動作経路は外見のないビデオへの一般化に不可欠であり、一方、フォームパスは自然主義的なビデオのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is a fundamental ability for social species. Yet, its underlying computations are not well understood. Classical psychophysical studies using simplified stimuli have shown that humans can perceive body motion even under degradation of relevant shape cues. Recent work using real-world action videos and their appearance-free counterparts (that preserve motion but lack static shape cues) included explicit training of humans and models on the appearance-free videos. Whether humans and vision models generalize in a zero-shot manner to appearance-free transformations of real-world action videos is not yet known. To measure this generalization in humans, we conducted a laboratory-based psychophysics experiment. 22 participants were trained to recognize five action categories using naturalistic videos (UCF5 dataset), and tested zero-shot on two types of appearance-free transformations: (i) dense-noise motion videos from an existing dataset (AFD5) and (ii) random-dot appearance-free videos. We find that participants recognize actions in both types of appearance-free videos well above chance, albeit with reduced accuracy compared to naturalistic videos. To model this behavior, we developed a two-pathway 3D CNN-based model combining an RGB (form) stream and an optical flow (motion) stream, including a coherence-gating mechanism inspired by Gestalt common-fate grouping. Our model generalizes to both appearance-free datasets and outperforms contemporary video classification models, narrowing the gap to human performance. We find that the motion pathway is critical for generalization to appearance-free videos, while the form pathway improves performance on naturalistic videos. Our findings highlight the importance of motion-based representations for generalization to appearance-free videos, and support the use of multi-stream architectures to model video-based action recognition.
- Abstract(参考訳): 行動認識は社会種にとって基本的な能力である。
しかし、その基礎となる計算はよく理解されていない。
単純化された刺激を用いた古典的な心理学的な研究は、人間が関連する形状の手がかりの劣化の下でも身体の動きを知覚できることを示した。
現実のアクションビデオとその外見のないビデオ(動きを保ちながら静的な形状の手がかりを欠いている)を使った最近の研究には、外見のないビデオ上で人間やモデルの明示的なトレーニングが含まれていた。
人間と視覚モデルがゼロショット方式で現実のアクションビデオの外観のない変換に一般化するかどうかは、まだ分かっていない。
この一般化を人体で測定するために,実験室を用いた心理物理学実験を行った。
22人の被験者が、ナチュラルビデオ(UCF5データセット)を用いて5つのアクションカテゴリを認識するように訓練され、2種類の容姿自由変換でゼロショットをテストした。
(i)既存のデータセット(AFD5)からの高密度ノイズモーションビデオ及び
(II)無作為な外見のないビデオ。
被験者は、自然主義的なビデオに比べて精度が低いにもかかわらず、両方のタイプの外見のないビデオのアクションを、偶然よりもはるかに上回っていることがわかった。
この振る舞いをモデル化するために,Gestalt Common-fate Groupingにインスパイアされたコヒーレンスゲーティング機構を含む,RGBストリームと光フローストリームを組み合わせた2経路3次元CNNモデルを開発した。
我々のモデルは、外見のないデータセットの両方に一般化し、現代のビデオ分類モデルよりも優れており、人間のパフォーマンスとのギャップを狭めている。
動作経路は外見のないビデオへの一般化に不可欠であり、一方、フォームパスは自然主義的なビデオのパフォーマンスを向上させる。
本研究は,映像の映像への一般化のための動きに基づく表現の重要性を強調し,映像に基づく行動認識をモデル化するためのマルチストリームアーキテクチャの利用を支援することを目的とした。
関連論文リスト
- LOME: Learning Human-Object Manipulation with Action-Conditioned Egocentric World Model [14.98308724969322]
LOMEは、入力画像、テキストプロンプト、フレームごとのヒューマンアクションに条件付けされたビデオとして、現実的な人間とオブジェクトのインタラクションを生成することができる。
LOMEは、空間的人間の行動を共同で推定することで、オブジェクト操作に強力で正確なアクションガイダンスを注入する。
LOMEは、シミュレーション環境に制限されずに、AR/VR体験とスケーラブルなロボットトレーニングの道を開く。
論文 参考訳(メタデータ) (2026-03-28T23:58:29Z) - From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。
この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか?
この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。
我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文 参考訳(メタデータ) (2025-12-04T18:56:03Z) - MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling [107.8379802891245]
本稿では,人間の映像生成過程を2つの構成要素,すなわち構造生成と外観生成に分解するMOSAを提案する。
MoSAは、ほとんどの評価指標で既存のアプローチを大幅に上回っている。
また,既存の人的ビデオデータセットよりも複雑で多様な動きを特徴とする大規模な人的ビデオデータセットも提案する。
論文 参考訳(メタデータ) (2025-08-24T15:20:24Z) - Multi-identity Human Image Animation with Structural Video Diffusion [73.38728096088732]
emph Structure Video Diffusionは、現実的なマルチヒューマンビデオを生成するための新しいフレームワークである。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Machine Learning Modeling for Multi-order Human Visual Motion Processing [5.043066132820344]
この研究は、人間のように視覚的な動きを知覚する機械を開発することを目的としている。
我々のモデルアーキテクチャは皮質V1-MT運動処理経路を模倣する。
移動物体の材質特性の異なる新しい運動データセットを用いて2経路モデルを訓練した。
論文 参考訳(メタデータ) (2025-01-22T11:41:41Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。