Fugu-MT 論文翻訳(概要): Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight

論文の概要: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight

arxiv url: http://arxiv.org/abs/2212.02053v2
Date: Fri, 23 Jun 2023 10:37:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 17:33:43.653972
Title: Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight
Title（参考訳）: day2dark: 無音の日光を超えた擬似教師付きアクティビティ認識
Authors: Yunhua Zhang and Hazel Doughty and Cees G. M. Snoek
Abstract要約: 最先端のアクティビティ認識器は日中有効だが、暗闇では信用できない。提案手法は,画像強調,領域適応,音声-視覚融合法よりも優れている。
参考スコア（独自算出の注目度）: 49.05368647729702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper strives to recognize activities in the dark, as well as in the day. As our first contribution, we establish that state-of-the-art activity recognizers are effective during the day, but not trustworthy in the dark. The main causes are the limited availability of labeled dark videos as well as the distribution shift from the lower color contrast. To compensate for the lack of labeled dark videos, our second contribution is to introduce a pseudo-supervised learning scheme, which utilizes unlabeled and task-irrelevant dark videos to improve an activity recognizer in low light. As the lower color contrast results in visual information loss, we propose to incorporate the complementary activity information within audio, which is invariant to illumination. Since the usefulness of audio and visual features differs depending on the amount of illumination, we introduce our `darkness-adaptive' audio-visual recognizer as the third contribution. Experiments on EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate our proposals are superior to image enhancement, domain adaptation and alternative audio-visual fusion methods, and can even improve robustness to occlusions.
Abstract（参考訳）: 本論文は,暗闇や日中の活動を認識することを目的とする。最初のコントリビューションとして、最先端のアクティビティ認識器は日中は有効だが、暗闇では信頼できないことが確認できます。主な原因は、ラベル付きダークビデオの可用性の制限と、低色のコントラストからの配信シフトである。ラベル付きダークビデオの欠如を補うために,未ラベルおよびタスク非関連ダークビデオを用いて低照度でのアクティビティ認識を改善する擬似教師付き学習手法を導入する。低色コントラストが視覚情報損失をもたらすため、照明に不変な音声に相補的な活動情報を統合することを提案する。照明量によって音声や視覚的特徴の有用性が異なるため,我々は「暗黒適応型」音声視覚認識装置を第3のコントリビューションとして紹介する。 EPIC-Kitchens, Kinetics-Sound, Charadesの実験では, 画像強調, ドメイン適応, 代替オーディオ-視覚融合法よりも提案手法が優れていることが実証され, 閉塞に対する堅牢性も向上できる。

関連論文リスト

Beyond Domain Randomization: Event-Inspired Perception for Visually Robust Adversarial Imitation from Videos [4.338232204525725]
専門家によるデモンストレーションや学習者の環境がドメインシフトを示すと、ビデオからの模倣は失敗することが多い。我々は、外見をランダムにするのではなく、感覚表現自体を再考することによって、その影響を完全に排除するアプローチを提案する。本手法は,標準RGB動画を時間強度勾配を符号化したスパースなイベントベース表現に変換する。
論文参考訳（メタデータ） (2025-05-24T23:12:23Z)
OwlSight: A Robust Illumination Adaptation Framework for Dark Video Human Action Recognition [19.035892288559975]
OwlSightはバイオミメティクスにインスパイアされたフレームワークで、全ステージ照明を増強し、正確な暗ビデオ人間の行動認識のための分類アクションと対話する。 Dark-101は101のアクションカテゴリにまたがる18,310のダークビデオからなる大規模なデータセットです。特に、ARID1.5では5.36%、Dark-101では1.72%、ダーク環境では1.72%、従来のベストアプローチでは5.36%を上回っている。
論文参考訳（メタデータ） (2025-03-30T00:54:22Z)
DAP-LED: Learning Degradation-Aware Priors with CLIP for Joint Low-light Enhancement and Deblurring [14.003870853594972]
DAP-LEDと呼ばれる新しい変圧器を用いた共同学習フレームワークを提案する。低照度向上と劣化を共同で達成することができ、深度推定、セグメンテーション、暗黒での検知といった下流タスクの恩恵を受けることができる。重要な洞察は、CLIPを活用して、夜間に画像から劣化レベルを適応的に学習することだ。
論文参考訳（メタデータ） (2024-09-20T13:37:53Z)
Multiple Latent Space Mapping for Compressed Dark Image Enhancement [51.112925890246444]
既存の暗黒画像強調手法は、圧縮された暗黒画像を入力とし、優れた性能を実現する。可変オートエンコーダ(VAE)に基づく新しい潜時マッピングネットワークを提案する。総合的な実験により,提案手法は圧縮暗画像強調における最先端性能を実現することを示した。
論文参考訳（メタデータ） (2024-03-12T13:05:51Z)
Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive Convolution [28.685126418090338]
既存の夜間の脱暖法は、光や低照度の条件を扱うのにしばしば苦労する。本稿では、光を抑え、低照度領域を高めることにより、夜間のハゼ画像からの視認性を高める。 GTA5夜間ヘイズデータセットでは,PSNRが30.38dBとなり,最先端の手法よりも13%向上した。
論文参考訳（メタデータ） (2023-08-03T12:58:23Z)
Disentangled Contrastive Image Translation for Nighttime Surveillance [87.03178320662592]
夜間監視は、照明の悪さと厳しい人間のアノテーションによる劣化に悩まされる。既存の手法では、暗黒の物体を知覚するためにマルチスペクトル画像が使われており、解像度の低さと色の不在に悩まされている。夜間監視の究極の解決策は、夜から昼までの翻訳(Night2Day)である、と私たちは主張する。本論文は、夜間監視研究を支援する6つのシーンを含む、NightSuRと呼ばれる新しい監視データセットに貢献する。
論文参考訳（メタデータ） (2023-07-11T06:40:27Z)
Soundini: Sound-Guided Diffusion for Natural Video Editing [29.231939578629785]
ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
論文参考訳（メタデータ） (2023-04-13T20:56:53Z)
Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文参考訳（メタデータ） (2022-11-07T15:53:12Z)
Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文参考訳（メタデータ） (2022-05-12T06:33:24Z)
OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文参考訳（メタデータ） (2022-02-10T10:50:52Z)
Relighting Images in the Wild with a Self-Supervised Siamese Auto-Encoder [62.580345486483886]
本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。この方法は、イメージを2つの別々のエンコーディングに分解するオートエンコーダに基づいている。 Youtube 8MやCelebAなどの大規模データセットでモデルをトレーニングします。
論文参考訳（メタデータ） (2020-12-11T16:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。