論文の概要: Seeing Through Fog: Towards Fog-Invariant Action Recognition
- arxiv url: http://arxiv.org/abs/2605.20645v1
- Date: Wed, 20 May 2026 03:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.452245
- Title: Seeing Through Fog: Towards Fog-Invariant Action Recognition
- Title(参考訳): Fogを通して見る:Fog-invariant Action Recognitionに向けて
- Authors: Enqi Liu, Liyuan Pan, Zhi Gao, Lingzhi Li, Qing Li,
- Abstract要約: FogActはフォグギー行動認識のための最初のベンチマークデータセットである。
劣化ビデオの背後に隠された霧不変の意味情報を検出する2ストリームCLIPモデルFogNetを提案する。
提案手法は,最先端(SOTA)手法と比較して競争性能が向上する。
- 参考スコア(独自算出の注目度): 31.5381777659518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foggy conditions are commonly encountered in real-world applications; however, existing action recognition approaches typically assume favorable weather and high-quality video inputs. On foggy days, unpredictable visibility degradation and reduced contrast obstruct the extraction of semantic cues, posing significant challenges for current action recognition methods. In this paper, we mitigate the issues faced in action recognition under foggy conditions by employing two strategies. First, we present FogAct, the first benchmark dataset for foggy action recognition, consisting of paired clean and foggy videos captured with a stereo camera system. The dataset spans 10 scenes and 55 action categories, comprising nearly 10,000 video clips. Second, we propose FogNet, a two-stream CLIP model that discovers fog-invariant semantic information hidden behind the degraded videos. FogNet learns robust representations of foggy videos with guidance from clean videos, effectively capturing shared structural and motion cues between clean and foggy videos. Extensive experiments on FogAct and three other popular datasets demonstrate that our method achieves competitive performance compared with state-of-the-art (SOTA) approaches. Our FogAct and FogNet are given in our project page.
- Abstract(参考訳): ファジィ・コンディションは現実の応用でよく見られるが、既存の行動認識手法では天気や高品質のビデオ入力が好まれる。
霧の日々において、予測不可能な可視性低下とコントラストの減少は意味的手がかりの抽出を妨げ、現在の行動認識法に重大な課題を生じさせる。
本稿では,霧条件下での行動認識における課題を2つの戦略を用いて緩和する。
まず、ステレオカメラシステムで撮影したクリーンとフォグギーの2つのビデオからなる、フォグアクション認識のための最初のベンチマークデータセットであるFogActを紹介する。
データセットは10のシーンと55のアクションカテゴリで構成され、1万近いビデオクリップで構成されている。
第2に、劣化したビデオの後ろに隠された霧不変の意味情報を検出する2ストリームCLIPモデルFogNetを提案する。
FogNetは、クリーンなビデオからヒントを得て、霧のようなビデオの堅牢な表現を学び、クリーンなビデオと霧のようなビデオの間で共有される構造的および動きのキューを効果的にキャプチャする。
FogActおよび他の3つの一般的なデータセットに対する大規模な実験は、我々の手法が最先端(SOTA)アプローチと比較して競争性能を達成することを示した。
FogActとFogNetはプロジェクトページで公開されています。
関連論文リスト
- FogGuard: guarding YOLO against fog using perceptual loss [5.868532677577194]
FogGuard(フォグガード)は、霧の天候によって引き起こされる課題に対処するために設計された、霧を意識した物体検出ネットワークである。
FogGuardは、YOLOv3をベースラインアルゴリズムとして組み込むことで、シーン内の霧の状態を補償する。
我々のネットワークは、RTTSデータセット上でのYOLOv3の57.78%と比較して、69.43%のmAPを達成した。
論文 参考訳(メタデータ) (2024-03-13T20:13:25Z) - Genuine Knowledge from Practice: Diffusion Test-Time Adaptation for
Video Adverse Weather Removal [53.15046196592023]
ビデオの悪天候除去におけるテスト時間適応について紹介する。
本稿では,テスト時間適応を反復拡散逆プロセスに統合する最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T14:21:30Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural
Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。
本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。
マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-03T13:24:06Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - FIFO: Learning Fog-invariant Features for Foggy Scene Segmentation [14.932318540666548]
本稿では,霧に対して頑健なセマンティックセグメンテーションモデルを学習するための新しい手法を提案する。
その鍵となる考え方は、画像の霧条件をそのスタイルとして考慮し、異なる霧条件で画像間のギャップを閉じることである。
本手法は,3つの実際の霧画像データセットにおいて,従来よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-04-04T15:33:42Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。