論文の概要: OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions
- arxiv url: http://arxiv.org/abs/2411.15729v1
- Date: Sun, 24 Nov 2024 06:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:56.991119
- Title: OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions
- Title(参考訳): OccludeNet: 咬合下での混合視点アクター中心映像行動認識への因果的旅
- Authors: Guanyu Zhou, Wenxuan Liu, Wenxin Huang, Xuemei Jia, Xian Zhong, Chia-Wen Lin,
- Abstract要約: OccludeNetは、現実世界と合成閉塞シーンの両方を含む、大規模に隠蔽されたビデオデータセットである。
本稿では,隠蔽シーンの構造因果モデルを提案するとともに,バックドア調整と対実的推論を用いた因果的行動認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.79525665359017
- License:
- Abstract: The lack of occlusion data in commonly used action recognition video datasets limits model robustness and impedes sustained performance improvements. We construct OccludeNet, a large-scale occluded video dataset that includes both real-world and synthetic occlusion scene videos under various natural environments. OccludeNet features dynamic tracking occlusion, static scene occlusion, and multi-view interactive occlusion, addressing existing gaps in data. Our analysis reveals that occlusion impacts action classes differently, with actions involving low scene relevance and partial body visibility experiencing greater accuracy degradation. To overcome the limitations of current occlusion-focused approaches, we propose a structural causal model for occluded scenes and introduce the Causal Action Recognition (CAR) framework, which employs backdoor adjustment and counterfactual reasoning. This framework enhances key actor information, improving model robustness to occlusion. We anticipate that the challenges posed by OccludeNet will stimulate further exploration of causal relations in occlusion scenarios and encourage a reevaluation of class correlations, ultimately promoting sustainable performance improvements. The code and full dataset will be released soon.
- Abstract(参考訳): 一般的に使用されるアクション認識ビデオデータセットにおける閉塞データの欠如は、モデルの堅牢性を制限し、継続的なパフォーマンス改善を妨げる。
OccludeNetは、様々な自然環境下で、実世界と合成オクルージョンシーンの両方を含む大規模ビデオデータセットである。
OccludeNetは動的トラッキングオクルージョン、静的シーンオクルージョン、マルチビューインタラクティブオクルージョンを備え、既存のデータギャップに対処する。
以上の結果より, 咬合が行動クラスに異なる影響を与えることが明らかとなり, シーン関連度が低く, 部分的な身体視認性が向上し, 精度が低下することが明らかとなった。
そこで本研究では,現在の隠蔽型アプローチの限界を克服するために,隠蔽シーンの構造因果モデルを提案し,バックドア調整と逆ファクト推論を用いた因果的行動認識(CAR)フレームワークを提案する。
このフレームワークは重要なアクター情報を強化し、モデルロバスト性を改善する。
我々は,OccludeNetがもたらす課題が,オクルージョンシナリオにおける因果関係のさらなる探求を刺激し,クラス相関の再評価を促進し,最終的には持続的なパフォーマンス改善を促進することを期待する。
コードと完全なデータセットは近くリリースされる。
関連論文リスト
- Deep Generative Adversarial Network for Occlusion Removal from a Single Image [3.5639148953570845]
本稿では,完全自動2段階畳み込みニューラルネットワークを提案する。
我々は、GANを利用して、構造とテクスチャの両方を含む現実的なコンテンツを、インペイントのための単一ショットで合成する。
論文 参考訳(メタデータ) (2024-09-20T06:00:45Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - CMU-Flownet: Exploring Point Cloud Scene Flow Estimation in Occluded Scenario [10.852258389804984]
閉塞はLiDARデータにおける点雲フレームのアライメントを妨げるが、シーンフローモデルでは不十分な課題である。
本稿では,CMU-Flownet(Relational Matrix Upsampling Flownet)を提案する。
CMU-Flownetは、隠されたFlyingthings3DとKITTYデータセットの領域内で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-04-16T13:47:21Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文 参考訳(メタデータ) (2021-04-30T08:41:45Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。