論文の概要: OwlSight: A Robust Illumination Adaptation Framework for Dark Video Human Action Recognition
- arxiv url: http://arxiv.org/abs/2503.23266v1
- Date: Sun, 30 Mar 2025 00:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.023531
- Title: OwlSight: A Robust Illumination Adaptation Framework for Dark Video Human Action Recognition
- Title(参考訳): OwlSight:暗ビデオ人間行動認識のためのロバスト照明適応フレームワーク
- Authors: Shihao Cheng, Jinlu Zhang, Yue Liu, Zhigang Tu,
- Abstract要約: OwlSightはバイオミメティクスにインスパイアされたフレームワークで、全ステージ照明を増強し、正確な暗ビデオ人間の行動認識のための分類アクションと対話する。
Dark-101は101のアクションカテゴリにまたがる18,310のダークビデオからなる大規模なデータセットです。
特に、ARID1.5では5.36%、Dark-101では1.72%、ダーク環境では1.72%、従来のベストアプローチでは5.36%を上回っている。
- 参考スコア(独自算出の注目度): 19.035892288559975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human action recognition in low-light environments is crucial for various real-world applications. However, the existing approaches overlook the full utilization of brightness information throughout the training phase, leading to suboptimal performance. To address this limitation, we propose OwlSight, a biomimetic-inspired framework with whole-stage illumination enhancement to interact with action classification for accurate dark video human action recognition. Specifically, OwlSight incorporates a Time-Consistency Module (TCM) to capture shallow spatiotemporal features meanwhile maintaining temporal coherence, which are then processed by a Luminance Adaptation Module (LAM) to dynamically adjust the brightness based on the input luminance distribution. Furthermore, a Reflect Augmentation Module (RAM) is presented to maximize illumination utilization and simultaneously enhance action recognition via two interactive paths. Additionally, we build Dark-101, a large-scale dataset comprising 18,310 dark videos across 101 action categories, significantly surpassing existing datasets (e.g., ARID1.5 and Dark-48) in scale and diversity. Extensive experiments demonstrate that the proposed OwlSight achieves state-of-the-art performance across four low-light action recognition benchmarks. Notably, it outperforms previous best approaches by 5.36% on ARID1.5 and 1.72% on Dark-101, highlighting its effectiveness in challenging dark environments.
- Abstract(参考訳): 低照度環境における人間の行動認識は、様々な現実世界の応用に不可欠である。
しかし、既存のアプローチは、トレーニングフェーズ全体を通して明るさ情報のフル活用を見落とし、最適以下のパフォーマンスをもたらす。
この制限に対処するため,バイオミメティックに着想を得たOwlSightを提案する。
具体的には、Luminance Adaptation Module (LAM) によって処理され、入力輝度分布に基づいて輝度を動的に調整する。
さらに、リフレクション拡張モジュール(RAM)を提示し、照明利用を最大化し、2つのインタラクティブパスによる行動認識を同時に強化する。
さらに、Dark-101は101のアクションカテゴリにまたがる18,310のダークビデオからなる大規模なデータセットで、スケールと多様性において既存のデータセット(例:ARID1.5、Dark-48)を大幅に上回っている。
広汎な実験により、提案したOwlSightは4つの低照度動作認識ベンチマークで最先端のパフォーマンスを達成することが示された。
特に、ARID1.5では5.36%、Dark-101では1.72%、ダーク環境では1.72%、従来のベストアプローチでは5.36%を上回っている。
関連論文リスト
- Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - SEE: See Everything Every Time -- Adaptive Brightness Adjustment for Broad Light Range Images via Events [53.79905461386883]
ダイナミックレンジが120億ドルを超えるイベントカメラは、従来の組込みカメラをはるかに上回っている。
本研究では,広い照明条件下で撮影した画像の明るさを拡張・適応的に調整するために,イベントをどのように利用するかという,新しい研究課題を提案する。
我々のフレームワークは、センサパターンを通して色を捉え、イベントを輝度辞書としてモデル化するためにクロスアテンションを使用し、画像のダイナミックレンジを調整し、広い光域表現を形成する。
論文 参考訳(メタデータ) (2025-02-28T14:55:37Z) - MD-BERT: Action Recognition in Dark Videos via Dynamic Multi-Stream Fusion and Temporal Modeling [4.736059095502584]
本稿では,ガンマ補正やヒストグラムなどの補完的な前処理技術を生の暗黒フレームと組み合わせた新しいマルチストリーム手法を提案する。
ARID V1.0とARID1.5のダークビデオデータセットに関する大規模な実験は、MD-BERTが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-02-06T02:26:47Z) - DAP-LED: Learning Degradation-Aware Priors with CLIP for Joint Low-light Enhancement and Deblurring [14.003870853594972]
DAP-LEDと呼ばれる新しい変圧器を用いた共同学習フレームワークを提案する。
低照度向上と劣化を共同で達成することができ、深度推定、セグメンテーション、暗黒での検知といった下流タスクの恩恵を受けることができる。
重要な洞察は、CLIPを活用して、夜間に画像から劣化レベルを適応的に学習することだ。
論文 参考訳(メタデータ) (2024-09-20T13:37:53Z) - A Lightweight Low-Light Image Enhancement Network via Channel Prior and Gamma Correction [0.0]
LLIE(ローライト・イメージ・エンハンスメント)とは、低照度シーンの処理に適した画像エンハンスメント技術である。
我々は,暗/明のチャネル先行と深層学習によるガンマ補正を組み合わせた,革新的なLLIEネットワークであるCPGA-Netを紹介する。
論文 参考訳(メタデータ) (2024-02-28T08:18:20Z) - Diving into Darkness: A Dual-Modulated Framework for High-Fidelity
Super-Resolution in Ultra-Dark Environments [51.58771256128329]
本稿では,低照度超解像課題の性質を深く理解しようとする,特殊二変調学習フレームワークを提案する。
Illuminance-Semantic Dual Modulation (ISDM) コンポーネントを開発した。
包括的実験は、我々のアプローチが多様で挑戦的な超低照度条件に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-09-11T06:55:32Z) - FeatEnHancer: Enhancing Hierarchical Features for Object Detection and
Beyond Under Low-Light Vision [11.255962936937744]
FeatEnHancerは汎用的なプラグイン・アンド・プレイモジュールで、どんな低照度ビジョン・パイプラインにも組み込める。
FeatEnHancerで生成された拡張表現は、様々な低照度視覚タスクにおける結果を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-08-07T13:52:21Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight [54.23533023883659]
最先端のアクティビティ認識器は日中有効だが、暗闇では信用できない。
低光下でのアクティビティ認識を改善するために、未ラベルでタスク非関連なダークビデオを容易に取得できる擬似教師付き学習手法を提案する。
照明量によって音声や視覚的特徴の有用性が異なるため,暗黒適応型音声視覚認識装置を導入する。
論文 参考訳(メタデータ) (2022-12-05T06:14:23Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Degrade is Upgrade: Learning Degradation for Low-light Image Enhancement [52.49231695707198]
2段階の工程で細部と色を精錬しながら、内在的な劣化と低照度画像を照らし出す。
カラー画像の定式化に触発されて,まず低照度入力からの劣化を推定し,環境照明色の歪みをシミュレーションし,そのコンテンツを精錬して拡散照明色の損失を回復した。
LOL1000データセットではPSNRで0.95dB、ExDarkデータセットでは3.18%のmAPでSOTAを上回った。
論文 参考訳(メタデータ) (2021-03-19T04:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。