論文の概要: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
- arxiv url: http://arxiv.org/abs/2212.02053v1
- Date: Mon, 5 Dec 2022 06:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:23:34.680052
- Title: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
- Title(参考訳): day2dark: 無音の日光を超えた擬似教師付きアクティビティ認識
- Authors: Yunhua Zhang and Hazel Doughty and Cees G. M. Snoek
- Abstract要約: 最先端のアクティビティ認識器は日中有効だが、暗闇では信用できない。
私たちのゴールは、暗闇や日中の活動を認識することです。
- 参考スコア(独自算出の注目度): 49.05368647729702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art activity recognizers are effective during the day, but not
trustworthy in the dark. The main causes are the distribution shift from the
lower color contrast as well as the limited availability of labeled dark
videos. Our goal is to recognize activities in the dark as well as in the day.
To compensate for the lack of labeled dark videos, we introduce a
pseudo-supervised learning scheme, which utilizes task-irrelevant unlabeled
dark videos to train an activity recognizer. Our proposed activity recognizer
makes use of audio which is invariant to illumination. However, the usefulness
of audio and visual features differs according to the illumination. Thus we
propose to make our audio-visual recognizer `darkness-aware'. Experiments on
EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate that our proposals
enable effective activity recognition in the dark and can even improve
robustness to occlusions.
- Abstract(参考訳): 最先端のアクティビティ認識器は日中有効だが、暗闇では信用できない。
主な原因は、低色のコントラストからの分布シフトと、ラベル付きダークビデオの可用性の制限である。
私たちの目標は、暗闇や日中の活動を認識できるようにすることです。
ラベル付きダークビデオの欠如を補うために,タスク非関連な未ラベルのダークビデオを利用した擬似教師付き学習手法を導入する。
提案するアクティビティ認識器は,照明に不変な音声を使用する。
しかし、音響的特徴と視覚的特徴は照明によって異なる。
そこで我々は,音声視覚認識器「ダークネス認識」を提案する。
EPIC-Kitchens, Kinetics-Sound, Charadesの実験により, 暗黒領域での効果的な活動認識が可能であり, 閉塞に対する堅牢性も向上できることを示した。
関連論文リスト
- DAP-LED: Learning Degradation-Aware Priors with CLIP for Joint Low-light Enhancement and Deblurring [14.003870853594972]
DAP-LEDと呼ばれる新しい変圧器を用いた共同学習フレームワークを提案する。
低照度向上と劣化を共同で達成することができ、深度推定、セグメンテーション、暗黒での検知といった下流タスクの恩恵を受けることができる。
重要な洞察は、CLIPを活用して、夜間に画像から劣化レベルを適応的に学習することだ。
論文 参考訳(メタデータ) (2024-09-20T13:37:53Z) - Multiple Latent Space Mapping for Compressed Dark Image Enhancement [51.112925890246444]
既存の暗黒画像強調手法は、圧縮された暗黒画像を入力とし、優れた性能を実現する。
可変オートエンコーダ(VAE)に基づく新しい潜時マッピングネットワークを提案する。
総合的な実験により,提案手法は圧縮暗画像強調における最先端性能を実現することを示した。
論文 参考訳(メタデータ) (2024-03-12T13:05:51Z) - Enhancing Visibility in Nighttime Haze Images Using Guided APSF and
Gradient Adaptive Convolution [28.685126418090338]
既存の夜間の脱暖法は、光や低照度の条件を扱うのにしばしば苦労する。
本稿では、光を抑え、低照度領域を高めることにより、夜間のハゼ画像からの視認性を高める。
GTA5夜間ヘイズデータセットでは,PSNRが30.38dBとなり,最先端の手法よりも13%向上した。
論文 参考訳(メタデータ) (2023-08-03T12:58:23Z) - Disentangled Contrastive Image Translation for Nighttime Surveillance [87.03178320662592]
夜間監視は、照明の悪さと厳しい人間のアノテーションによる劣化に悩まされる。
既存の手法では、暗黒の物体を知覚するためにマルチスペクトル画像が使われており、解像度の低さと色の不在に悩まされている。
夜間監視の究極の解決策は、夜から昼までの翻訳(Night2Day)である、と私たちは主張する。
本論文は、夜間監視研究を支援する6つのシーンを含む、NightSuRと呼ばれる新しい監視データセットに貢献する。
論文 参考訳(メタデータ) (2023-07-11T06:40:27Z) - Soundini: Sound-Guided Diffusion for Natural Video Editing [29.231939578629785]
ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
論文 参考訳(メタデータ) (2023-04-13T20:56:53Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - Relighting Images in the Wild with a Self-Supervised Siamese
Auto-Encoder [62.580345486483886]
本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。
この方法は、イメージを2つの別々のエンコーディングに分解するオートエンコーダに基づいている。
Youtube 8MやCelebAなどの大規模データセットでモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-12-11T16:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。