論文の概要: DL-KDD: Dual-Light Knowledge Distillation for Action Recognition in the Dark
- arxiv url: http://arxiv.org/abs/2406.02468v1
- Date: Tue, 4 Jun 2024 16:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:20:58.472014
- Title: DL-KDD: Dual-Light Knowledge Distillation for Action Recognition in the Dark
- Title(参考訳): DL-KDD:暗黒における行動認識のためのデュアルライト知識蒸留
- Authors: Chi-Jui Chang, Oscar Tai-Yuan Chen, Vincent S. Tseng,
- Abstract要約: 暗黒における行動認識のためのDual-Light KnowleDge Distillation for Action Recognition (DL-KDD) という教師によるビデオ分類フレームワークを提案する。
このフレームワークは、推論中に追加の計算コストを導入することなく、オリジナルのビデオと拡張ビデオの両方から学習することができる。
実験では,提案するDL-KDDフレームワークがARID,ARID V1.5,Dark-48データセットの最先端手法より優れていた。
- 参考スコア(独自算出の注目度): 2.941253902145271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition in dark videos is a challenging task for computer vision. Recent research focuses on applying dark enhancement methods to improve the visibility of the video. However, such video processing results in the loss of critical information in the original (un-enhanced) video. Conversely, traditional two-stream methods are capable of learning information from both original and processed videos, but it can lead to a significant increase in the computational cost during the inference phase in the task of video classification. To address these challenges, we propose a novel teacher-student video classification framework, named Dual-Light KnowleDge Distillation for Action Recognition in the Dark (DL-KDD). This framework enables the model to learn from both original and enhanced video without introducing additional computational cost during inference. Specifically, DL-KDD utilizes the strategy of knowledge distillation during training. The teacher model is trained with enhanced video, and the student model is trained with both the original video and the soft target generated by the teacher model. This teacher-student framework allows the student model to predict action using only the original input video during inference. In our experiments, the proposed DL-KDD framework outperforms state-of-the-art methods on the ARID, ARID V1.5, and Dark-48 datasets. We achieve the best performance on each dataset and up to a 4.18% improvement on Dark-48, using only original video inputs, thus avoiding the use of two-stream framework or enhancement modules for inference. We further validate the effectiveness of the distillation strategy in ablative experiments. The results highlight the advantages of our knowledge distillation framework in dark human action recognition.
- Abstract(参考訳): ダークビデオにおける人間の行動認識は、コンピュータビジョンにとって難しい課題である。
近年の研究では、映像の視認性を改善するためにダークエンハンスメント法の適用に焦点が当てられている。
しかし、このようなビデオ処理により、オリジナルの(未改良の)ビデオに重要な情報が失われる。
逆に、従来の2ストリーム方式では、オリジナルビデオとプロセッシングビデオの両方から情報を学習することができるが、ビデオ分類作業の推論フェーズにおいて、計算コストが大幅に増加する可能性がある。
これらの課題に対処するため、我々は、Dual-Light KnowleDge Distillation for Action Recognition in the Dark (DL-KDD)という、教師が学習する新しいビデオ分類フレームワークを提案する。
このフレームワークは、推論中に追加の計算コストを導入することなく、オリジナルのビデオと拡張ビデオの両方から学習することができる。
具体的には、DL-KDDは、訓練中に知識蒸留の戦略を利用する。
教師モデルは、強化ビデオで訓練され、学生モデルは、教師モデルによって生成されたオリジナルビデオとソフトターゲットの両方で訓練される。
この教師学生フレームワークにより、学生モデルは推論中にオリジナルの入力ビデオのみを使用して行動を予測することができる。
実験では,提案するDL-KDDフレームワークがARID,ARID V1.5,Dark-48データセットの最先端手法より優れていた。
各データセット上で最高のパフォーマンスを実現し、オリジナルビデオ入力のみを使用してDark-48の4.18%の改善を実現し、推論に2ストリームフレームワークや拡張モジュールを使用するのを避ける。
さらに, アブレーション実験における蒸留方法の有効性を検証した。
その結果,暗黒人間の行動認識における知識蒸留フレームワークの利点を浮き彫りにした。
関連論文リスト
- DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - CLearViD: Curriculum Learning for Video Description [3.5293199207536627]
ビデオ記述は、与えられたビデオの内容をナレーションするコヒーレントな自然言語文を自動的に生成する。
本稿では,ビデオ記述生成のためのトランスフォーマーベースモデルであるCLearViDを紹介する。
ActivityNet CaptionsとYouCook2という2つのデータセットの結果から、CLearViDは精度と多様性の両方の観点から既存の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-11-08T06:20:32Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Ego-Vehicle Action Recognition based on Semi-Supervised Contrastive
Learning [0.0]
我々は,自走車行動に着目して,適切な映像間距離を定義することができることを示す。
教師付き学習に基づく既存の方法は、事前に定義されたクラスに該当しないビデオを扱うことができない。
半教師付きコントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:31Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - Self-Supervised Video Representation Learning with Meta-Contrastive
Network [10.768575680990415]
自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-08-19T01:21:13Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。