論文の概要: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
- arxiv url: http://arxiv.org/abs/2212.02053v3
- Date: Sun, 27 Aug 2023 19:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:16:54.984463
- Title: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
- Title(参考訳): day2dark: 無音の日光を超えた擬似教師付きアクティビティ認識
- Authors: Yunhua Zhang and Hazel Doughty and Cees G. M. Snoek
- Abstract要約: 最先端のアクティビティ認識器は日中有効だが、暗闇では信用できない。
低光下でのアクティビティ認識を改善するために、未ラベルでタスク非関連なダークビデオを容易に取得できる擬似教師付き学習手法を提案する。
照明量によって音声や視覚的特徴の有用性が異なるため,暗黒適応型音声視覚認識装置を導入する。
- 参考スコア(独自算出の注目度): 54.23533023883659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives to recognize activities in the dark, as well as in the
day. We first establish that state-of-the-art activity recognizers are
effective during the day, but not trustworthy in the dark. The main causes are
the limited availability of labeled dark videos to learn from, as well as the
distribution shift towards the lower color contrast at test-time. To compensate
for the lack of labeled dark videos, we introduce a pseudo-supervised learning
scheme, which utilizes easy to obtain unlabeled and task-irrelevant dark videos
to improve an activity recognizer in low light. As the lower color contrast
results in visual information loss, we further propose to incorporate the
complementary activity information within audio, which is invariant to
illumination. Since the usefulness of audio and visual features differs
depending on the amount of illumination, we introduce our `darkness-adaptive'
audio-visual recognizer. Experiments on EPIC-Kitchens, Kinetics-Sound, and
Charades demonstrate our proposals are superior to image enhancement, domain
adaptation and alternative audio-visual fusion methods, and can even improve
robustness to local darkness caused by occlusions. Project page:
https://xiaobai1217.github.io/Day2Dark/
- Abstract(参考訳): 本論文は,暗闇や日中の活動を認識することを目的とする。
まず、最先端のアクティビティ認識器は日中は有効だが、暗闇では信頼できないと確認する。
主な原因は、ラベル付きダークビデオが学習できる範囲が限られていることと、テスト時に低い色のコントラストへの分布シフトである。
ラベル付きダークビデオの欠如を補うために,ラベルなしでタスク不要なダークビデオを容易に入手し,低光度でのアクティビティ認識を改善する擬似教師付き学習方式を提案する。
低色のコントラストは視覚情報の損失をもたらすため、照明に不変な音声に相補的なアクティビティ情報を組み込むことも提案する。
照明量によって音声や視覚的特徴の有用性が異なるため,我々は「暗さ適応型」音声視覚認識装置を提案する。
EPIC-Kitchens, Kinetics-Sound, Charadesの実験では, 画像強調, ドメイン適応, オルタナティブオーディオ-視覚融合法に優れており, 閉塞による局所暗黒への堅牢性の向上も可能である。
プロジェクトページ: https://xiaobai1217.github.io/day2dark/
関連論文リスト
- DAP-LED: Learning Degradation-Aware Priors with CLIP for Joint Low-light Enhancement and Deblurring [14.003870853594972]
DAP-LEDと呼ばれる新しい変圧器を用いた共同学習フレームワークを提案する。
低照度向上と劣化を共同で達成することができ、深度推定、セグメンテーション、暗黒での検知といった下流タスクの恩恵を受けることができる。
重要な洞察は、CLIPを活用して、夜間に画像から劣化レベルを適応的に学習することだ。
論文 参考訳(メタデータ) (2024-09-20T13:37:53Z) - Multiple Latent Space Mapping for Compressed Dark Image Enhancement [51.112925890246444]
既存の暗黒画像強調手法は、圧縮された暗黒画像を入力とし、優れた性能を実現する。
可変オートエンコーダ(VAE)に基づく新しい潜時マッピングネットワークを提案する。
総合的な実験により,提案手法は圧縮暗画像強調における最先端性能を実現することを示した。
論文 参考訳(メタデータ) (2024-03-12T13:05:51Z) - Enhancing Visibility in Nighttime Haze Images Using Guided APSF and
Gradient Adaptive Convolution [28.685126418090338]
既存の夜間の脱暖法は、光や低照度の条件を扱うのにしばしば苦労する。
本稿では、光を抑え、低照度領域を高めることにより、夜間のハゼ画像からの視認性を高める。
GTA5夜間ヘイズデータセットでは,PSNRが30.38dBとなり,最先端の手法よりも13%向上した。
論文 参考訳(メタデータ) (2023-08-03T12:58:23Z) - Disentangled Contrastive Image Translation for Nighttime Surveillance [87.03178320662592]
夜間監視は、照明の悪さと厳しい人間のアノテーションによる劣化に悩まされる。
既存の手法では、暗黒の物体を知覚するためにマルチスペクトル画像が使われており、解像度の低さと色の不在に悩まされている。
夜間監視の究極の解決策は、夜から昼までの翻訳(Night2Day)である、と私たちは主張する。
本論文は、夜間監視研究を支援する6つのシーンを含む、NightSuRと呼ばれる新しい監視データセットに貢献する。
論文 参考訳(メタデータ) (2023-07-11T06:40:27Z) - Soundini: Sound-Guided Diffusion for Natural Video Editing [29.231939578629785]
ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
論文 参考訳(メタデータ) (2023-04-13T20:56:53Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - Relighting Images in the Wild with a Self-Supervised Siamese
Auto-Encoder [62.580345486483886]
本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。
この方法は、イメージを2つの別々のエンコーディングに分解するオートエンコーダに基づいている。
Youtube 8MやCelebAなどの大規模データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-12-11T16:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。