論文の概要: OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions
- arxiv url: http://arxiv.org/abs/2411.15729v2
- Date: Mon, 09 Jun 2025 08:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.824431
- Title: OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions
- Title(参考訳): OccludeNet: 咬合下での混合視点アクター中心映像行動認識への因果的旅
- Authors: Guanyu Zhou, Wenxuan Liu, Wenxin Huang, Xuemei Jia, Xian Zhong, Chia-Wen Lin,
- Abstract要約: 我々はOccludeNetを構築した。OccludeNetは大規模に隠蔽されたビデオデータセットで、実シーンと合成シーンの両方を含んでいる。
分析の結果,シーン関連度が低く,部分的な身体視認性が高いと精度が低下することが明らかとなった。
本稿では,背景調整と反事実推論を併用した因果認識(Causal Action Recognition, CAR)手法を提案する。
- 参考スコア(独自算出の注目度): 37.79525665359017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of occlusion data in common action recognition video datasets limits model robustness and hinders consistent performance gains. We build OccludeNet, a large-scale occluded video dataset including both real and synthetic occlusion scenes in different natural settings. OccludeNet includes dynamic occlusion, static occlusion, and multi-view interactive occlusion, addressing gaps in current datasets. Our analysis shows occlusion affects action classes differently: actions with low scene relevance and partial body visibility see larger drops in accuracy. To overcome the limits of existing occlusion-aware methods, we propose a structural causal model for occluded scenes and introduce the Causal Action Recognition (CAR) method, which uses backdoor adjustment and counterfactual reasoning. This approach strengthens key actor information and improves model robustness to occlusion. We hope the challenges of OccludeNet will encourage more study of causal links in occluded scenes and lead to a fresh look at class relations, ultimately leading to lasting performance improvements. Our code and data is availibale at: https://github.com/The-Martyr/OccludeNet-Dataset
- Abstract(参考訳): 共通のアクション認識ビデオデータセットにおける閉塞データの欠如は、モデルの堅牢性を制限し、一貫したパフォーマンス向上を妨げる。
我々はOccludeNetを構築した。OccludeNetは大規模に隠蔽されたビデオデータセットで、実と合成の両方の閉塞シーンを異なる自然環境に格納する。
OccludeNetには動的オクルージョン、静的オクルージョン、マルチビューインタラクティブオクルージョンが含まれ、現在のデータセットのギャップに対処する。
我々の分析では、閉塞がアクションクラスに異なる影響があることが示されている: シーンの関連性が低く、部分的な身体視認性のあるアクションは、精度の低下が大きい。
既存の隠蔽認識手法の限界を克服するために,隠蔽シーンの構造因果モデルを提案し,バックドア調整と逆ファクト推論を用いた因果行動認識(CAR)手法を提案する。
このアプローチは重要なアクター情報を強化し、モデルロバスト性を改善する。
OccludeNetの課題は、隠されたシーンにおける因果関係のさらなる研究を奨励し、クラス関係を新たに検討し、最終的にはパフォーマンス改善を継続することを期待しています。
https://github.com/The-Martyr/OccludeNet-Dataset
関連論文リスト
- JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、新しい適応型ジョイントトレーニングフレームワークである。
我々は文脈認識型ゲーティング機構を組み込んだAdaptive LoRAを開発した。
内在性外見から運動パターンを分離するために出現非依存の時間損失を導入する。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。
無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。
Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Deep Generative Adversarial Network for Occlusion Removal from a Single Image [3.5639148953570845]
本稿では,完全自動2段階畳み込みニューラルネットワークを提案する。
我々は、GANを利用して、構造とテクスチャの両方を含む現実的なコンテンツを、インペイントのための単一ショットで合成する。
論文 参考訳(メタデータ) (2024-09-20T06:00:45Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - CMU-Flownet: Exploring Point Cloud Scene Flow Estimation in Occluded Scenario [10.852258389804984]
閉塞はLiDARデータにおける点雲フレームのアライメントを妨げるが、シーンフローモデルでは不十分な課題である。
本稿では,CMU-Flownet(Relational Matrix Upsampling Flownet)を提案する。
CMU-Flownetは、隠されたFlyingthings3DとKITTYデータセットの領域内で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-04-16T13:47:21Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream [27.600873320989276]
現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
論文 参考訳(メタデータ) (2021-04-30T08:41:45Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。