論文の概要: On Occlusions in Video Action Detection: Benchmark Datasets And Training Recipes
- arxiv url: http://arxiv.org/abs/2410.19553v1
- Date: Fri, 25 Oct 2024 13:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:20.351190
- Title: On Occlusions in Video Action Detection: Benchmark Datasets And Training Recipes
- Title(参考訳): ビデオアクション検出におけるオクルージョン:ベンチマークデータセットとトレーニングレシピ
- Authors: Rajat Modi, Vibhav Vineet, Yogesh Singh Rawat,
- Abstract要約: 本稿では,映像行動検出におけるオクルージョンの影響について検討する。
我々は,O-UCF,O-JHMDB,OVIS-UCF,OVIS-JHMDB,Real-OUCFの5つのベンチマークデータセットを紹介する。
これらのレシピを利用するモデルは、O-UCFでは32.3%、O-JHMDBでは32.7%、Real-OUCFでは2.6%で、既存のビデオアクション検出器よりも優れている。
- 参考スコア(独自算出の注目度): 14.464718780172582
- License:
- Abstract: This paper explores the impact of occlusions in video action detection. We facilitate this study by introducing five new benchmark datasets namely O-UCF and O-JHMDB consisting of synthetically controlled static/dynamic occlusions, OVIS-UCF and OVIS-JHMDB consisting of occlusions with realistic motions and Real-OUCF for occlusions in realistic-world scenarios. We formally confirm an intuitive expectation: existing models suffer a lot as occlusion severity is increased and exhibit different behaviours when occluders are static vs when they are moving. We discover several intriguing phenomenon emerging in neural nets: 1) transformers can naturally outperform CNN models which might have even used occlusion as a form of data augmentation during training 2) incorporating symbolic-components like capsules to such backbones allows them to bind to occluders never even seen during training and 3) Islands of agreement can emerge in realistic images/videos without instance-level supervision, distillation or contrastive-based objectives2(eg. video-textual training). Such emergent properties allow us to derive simple yet effective training recipes which lead to robust occlusion models inductively satisfying the first two stages of the binding mechanism (grouping/segregation). Models leveraging these recipes outperform existing video action-detectors under occlusion by 32.3% on O-UCF, 32.7% on O-JHMDB & 2.6% on Real-OUCF in terms of the vMAP metric. The code for this work has been released at https://github.com/rajatmodi62/OccludedActionBenchmark.
- Abstract(参考訳): 本稿では,映像行動検出におけるオクルージョンの影響について検討する。
本研究は,O-UCF と O-JHMDB という5つのベンチマークデータセットを導入し,実世界のシナリオにおいて,O-UCF と OVIS-UCF と OVIS-JHMDB の5つのオクルージョンを合成制御した静的/動的オクルージョンと,リアルな動きを持つオクルージョンからなるOVIS-UCF と,リアル-OUCF の5つのベンチマークデータセットを提案する。
既存のモデルでは、オクルージョンの重大さが増加し、オクルーダーが静的である場合と、動いている場合とが異なる振る舞いを示すため、直感的な予測を正式に確認します。
ニューラルネットに現れるいくつかの興味深い現象を発見します。
1)トランスフォーマーは、トレーニング中にデータ拡張の一形態としてオクルージョンを使用したかもしれないCNNモデルよりも自然に優れている。
2 カプセル等の象徴成分をそのような背骨に組み込むことにより、訓練中に見たことのない咬合器に結合することができる。
3) 合意の列は, 事例レベルの監督, 蒸留, コントラストに基づく目標2(ビデオ・テキスト・トレーニングなど)を伴わずに, 現実的な画像・映像に現れる可能性がある。
このような創発的な性質は、結合機構の最初の2段階(グループ化/分離)を誘導的に満たす頑健な閉塞モデルをもたらす、単純で効果的なトレーニングレシピを導出することができる。
これらのレシピを利用するモデルは、O-UCFでは32.3%、O-JHMDBでは32.7%、Real-OUCFでは2.6%で、既存のビデオアクション検出器よりも優れている。
この作業のコードはhttps://github.com/rajatmodi62/OccludedActionBenchmarkでリリースされた。
関連論文リスト
- Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
集約表現から比較的単純なモデルに知識を蒸留することで,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Synthetic Data Are as Good as the Real for Association Knowledge
Learning in Multi-object Tracking [19.772968520292345]
本稿では,3次元合成データが実世界のビデオに取って代わってアソシエーショントレーニングを行うことができるかどうかを考察する。
具体的には,MOTXと呼ばれる大規模合成データエンジンを導入し,カメラや物体の運動特性を実世界のデータセットに類似するように手動で設定する。
実データと比較すると、合成データから得られた関連知識は、ドメイン適応技術なしで実世界のテストセット上で非常によく似た性能が得られることを示す。
論文 参考訳(メタデータ) (2021-06-30T14:46:36Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。