論文の概要: Is Appearance Free Action Recognition Possible?
- arxiv url: http://arxiv.org/abs/2207.06261v1
- Date: Wed, 13 Jul 2022 15:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 17:33:16.274505
- Title: Is Appearance Free Action Recognition Possible?
- Title(参考訳): 外観自由行動認識は可能か?
- Authors: Filip Ilic, Thomas Pock, Richard P. Wildes
- Abstract要約: 出現自由データセット(AFD)は、単一のフレームにおけるアクション認識に関連する静的情報を欠いている。
AFDとそれに関連するRGBビデオに基づいて,11の現代の行動認識アーキテクチャを評価した。
RGBと比較して,AFD上の全てのアーキテクチャの性能は顕著に低下した。
- 参考スコア(独自算出の注目度): 19.435647988326558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intuition might suggest that motion and dynamic information are key to
video-based action recognition. In contrast, there is evidence that
state-of-the-art deep-learning video understanding architectures are biased
toward static information available in single frames. Presently, a methodology
and corresponding dataset to isolate the effects of dynamic information in
video are missing. Their absence makes it difficult to understand how well
contemporary architectures capitalize on dynamic vs. static information. We
respond with a novel Appearance Free Dataset (AFD) for action recognition. AFD
is devoid of static information relevant to action recognition in a single
frame. Modeling of the dynamics is necessary for solving the task, as the
action is only apparent through consideration of the temporal dimension. We
evaluated 11 contemporary action recognition architectures on AFD as well as
its related RGB video. Our results show a notable decrease in performance for
all architectures on AFD compared to RGB. We also conducted a complimentary
study with humans that shows their recognition accuracy on AFD and RGB is very
similar and much better than the evaluated architectures on AFD. Our results
motivate a novel architecture that revives explicit recovery of optical flow,
within a contemporary design for best performance on AFD and RGB.
- Abstract(参考訳): 直感は、動画に基づく行動認識の鍵となる動きと動的情報が示唆されるかもしれない。
対照的に、最先端のディープラーニングビデオ理解アーキテクチャが単一のフレームで利用可能な静的情報に偏っている証拠がある。
現在,映像中の動的情報の影響を分離するための方法論と対応するデータセットが欠落している。
それらの欠如は、現代のアーキテクチャが動的情報と静的情報の両方をいかにうまく活用しているかを理解するのを難しくする。
我々は,行動認識のための新しいアペンランスフリーデータセット(AFD)を作成した。
afdは単一のフレームにおける行動認識に関連する静的情報を持たない。
ダイナミクスのモデリングはタスクの解決に必要であり、アクションは時間次元の考慮によってのみ明らかである。
AFDとそれに関連するRGBビデオを用いて,11の現代の行動認識アーキテクチャを評価した。
RGBと比較して,AFD上の全てのアーキテクチャの性能は顕著に低下した。
また,AFD上での認識精度とRGBがAFDで評価されたアーキテクチャと非常によく似ていることを示す補完的研究を行った。
その結果,afd と rgb 上で最高の性能を実現するため,光フローの明示的な回復を再現する新しいアーキテクチャのモチベーションが得られた。
関連論文リスト
- MUSTAN: Multi-scale Temporal Context as Attention for Robust Video
Foreground Segmentation [2.2232550112727267]
ビデオフォアグラウンドセグメンテーション(VFS)は、背景からの動作下でオブジェクトをセグメンテーションすることを目的とした重要なコンピュータビジョンタスクである。
現在の手法のほとんどはイメージベースであり、動きの手がかりを無視しながら空間的な手がかりにのみ依存している。
本稿では,映像データからの時間情報と空間的手がかりを利用してOOD性能を向上させる。
論文 参考訳(メタデータ) (2024-02-01T13:47:23Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - DyGait: Exploiting Dynamic Representations for High-performance Gait
Recognition [35.642868929840034]
歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
我々は動的特徴の抽出に焦点をあて,DyGaitという新しい高性能なフレームワークを提案する。
我々のネットワークは、GREWデータセットで71.4%、Gait3Dデータセットで66.3%、CAIA-Bデータセットで98.4%、OU-Mデータセットで98.3%の平均ランク1の精度を達成した。
論文 参考訳(メタデータ) (2023-03-27T07:36:47Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via
Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。
本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。
本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文 参考訳(メタデータ) (2020-08-12T01:23:21Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。