論文の概要: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
- arxiv url: http://arxiv.org/abs/2212.02053v2
- Date: Fri, 23 Jun 2023 10:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:33:43.653972
- Title: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
- Title(参考訳): day2dark: 無音の日光を超えた擬似教師付きアクティビティ認識
- Authors: Yunhua Zhang and Hazel Doughty and Cees G. M. Snoek
- Abstract要約: 最先端のアクティビティ認識器は日中有効だが、暗闇では信用できない。
提案手法は,画像強調,領域適応,音声-視覚融合法よりも優れている。
- 参考スコア(独自算出の注目度): 49.05368647729702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives to recognize activities in the dark, as well as in the
day. As our first contribution, we establish that state-of-the-art activity
recognizers are effective during the day, but not trustworthy in the dark. The
main causes are the limited availability of labeled dark videos as well as the
distribution shift from the lower color contrast. To compensate for the lack of
labeled dark videos, our second contribution is to introduce a
pseudo-supervised learning scheme, which utilizes unlabeled and task-irrelevant
dark videos to improve an activity recognizer in low light. As the lower color
contrast results in visual information loss, we propose to incorporate the
complementary activity information within audio, which is invariant to
illumination. Since the usefulness of audio and visual features differs
depending on the amount of illumination, we introduce our `darkness-adaptive'
audio-visual recognizer as the third contribution. Experiments on
EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate our proposals are
superior to image enhancement, domain adaptation and alternative audio-visual
fusion methods, and can even improve robustness to occlusions.
- Abstract(参考訳): 本論文は,暗闇や日中の活動を認識することを目的とする。
最初のコントリビューションとして、最先端のアクティビティ認識器は日中は有効だが、暗闇では信頼できないことが確認できます。
主な原因は、ラベル付きダークビデオの可用性の制限と、低色のコントラストからの配信シフトである。
ラベル付きダークビデオの欠如を補うために,未ラベルおよびタスク非関連ダークビデオを用いて低照度でのアクティビティ認識を改善する擬似教師付き学習手法を導入する。
低色コントラストが視覚情報損失をもたらすため、照明に不変な音声に相補的な活動情報を統合することを提案する。
照明量によって音声や視覚的特徴の有用性が異なるため,我々は「暗黒適応型」音声視覚認識装置を第3のコントリビューションとして紹介する。
EPIC-Kitchens, Kinetics-Sound, Charadesの実験では, 画像強調, ドメイン適応, 代替オーディオ-視覚融合法よりも提案手法が優れていることが実証され, 閉塞に対する堅牢性も向上できる。
関連論文リスト
- DAP-LED: Learning Degradation-Aware Priors with CLIP for Joint Low-light Enhancement and Deblurring [14.003870853594972]
DAP-LEDと呼ばれる新しい変圧器を用いた共同学習フレームワークを提案する。
低照度向上と劣化を共同で達成することができ、深度推定、セグメンテーション、暗黒での検知といった下流タスクの恩恵を受けることができる。
重要な洞察は、CLIPを活用して、夜間に画像から劣化レベルを適応的に学習することだ。
論文 参考訳(メタデータ) (2024-09-20T13:37:53Z) - Multiple Latent Space Mapping for Compressed Dark Image Enhancement [51.112925890246444]
既存の暗黒画像強調手法は、圧縮された暗黒画像を入力とし、優れた性能を実現する。
可変オートエンコーダ(VAE)に基づく新しい潜時マッピングネットワークを提案する。
総合的な実験により,提案手法は圧縮暗画像強調における最先端性能を実現することを示した。
論文 参考訳(メタデータ) (2024-03-12T13:05:51Z) - Enhancing Visibility in Nighttime Haze Images Using Guided APSF and
Gradient Adaptive Convolution [28.685126418090338]
既存の夜間の脱暖法は、光や低照度の条件を扱うのにしばしば苦労する。
本稿では、光を抑え、低照度領域を高めることにより、夜間のハゼ画像からの視認性を高める。
GTA5夜間ヘイズデータセットでは,PSNRが30.38dBとなり,最先端の手法よりも13%向上した。
論文 参考訳(メタデータ) (2023-08-03T12:58:23Z) - Disentangled Contrastive Image Translation for Nighttime Surveillance [87.03178320662592]
夜間監視は、照明の悪さと厳しい人間のアノテーションによる劣化に悩まされる。
既存の手法では、暗黒の物体を知覚するためにマルチスペクトル画像が使われており、解像度の低さと色の不在に悩まされている。
夜間監視の究極の解決策は、夜から昼までの翻訳(Night2Day)である、と私たちは主張する。
本論文は、夜間監視研究を支援する6つのシーンを含む、NightSuRと呼ばれる新しい監視データセットに貢献する。
論文 参考訳(メタデータ) (2023-07-11T06:40:27Z) - Soundini: Sound-Guided Diffusion for Natural Video Editing [29.231939578629785]
ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
論文 参考訳(メタデータ) (2023-04-13T20:56:53Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - Relighting Images in the Wild with a Self-Supervised Siamese
Auto-Encoder [62.580345486483886]
本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。
この方法は、イメージを2つの別々のエンコーディングに分解するオートエンコーダに基づいている。
Youtube 8MやCelebAなどの大規模データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-12-11T16:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。