論文の概要: Reinforced Label Denoising for Weakly-Supervised Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2412.19563v1
- Date: Fri, 27 Dec 2024 10:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:07.247736
- Title: Reinforced Label Denoising for Weakly-Supervised Audio-Visual Video Parsing
- Title(参考訳): 弱スーパービジョンオーディオ・ビジュアル・ビデオ・パーシングのための強化ラベルデノジング
- Authors: Yongbiao Gao, Xiangcheng Sun, Guohua Lv, Deng Yu, Sijiu Niu,
- Abstract要約: 共同強化学習に基づくラベル記述手法(RLLD)を提案する。
このアプローチにより、ラベルの復号化モデルとビデオ解析モデルの同時学習が可能になる。
本稿では,ラベル記述ポリシーの学習を直接指導する,新たなAVVP検証とソフトリワードフィードバック機構を導入する。
- 参考スコア(独自算出の注目度): 2.918198001105141
- License:
- Abstract: Audio-visual video parsing (AVVP) aims to recognize audio and visual event labels with precise temporal boundaries, which is quite challenging since audio or visual modality might include only one event label with only the overall video labels available. Existing label denoising models often treat the denoising process as a separate preprocessing step, leading to a disconnect between label denoising and AVVP tasks. To bridge this gap, we present a novel joint reinforcement learning-based label denoising approach (RLLD). This approach enables simultaneous training of both label denoising and video parsing models through a joint optimization strategy. We introduce a novel AVVP-validation and soft inter-reward feedback mechanism that directly guides the learning of label denoising policy. Extensive experiments on AVVP tasks demonstrate the superior performance of our proposed method compared to label denoising techniques. Furthermore, by incorporating our label denoising method into other AVVP models, we find that it can further enhance parsing results.
- Abstract(参考訳): 音声・視覚的ビデオ解析(AVVP)は、正確な時間境界を持つ音声および視覚的イベントラベルを認識することを目的としている。
既存のラベルデノナイジングモデルでは、デノナイジングプロセスを別々の前処理ステップとして扱うことが多く、ラベルデノナイジングとAVVPタスクの切り離しにつながる。
このギャップを埋めるために、新しい強化学習に基づくラベル記述手法(RLLD)を提案する。
このアプローチにより,共同最適化戦略により,ラベル復調モデルとビデオ解析モデルの同時学習が可能となる。
本稿では,ラベル記述ポリシーの学習を直接指導する,新たなAVVP検証とソフトリワードフィードバック機構を導入する。
AVVPタスクの広範囲な実験により,提案手法がラベル復調法よりも優れた性能を示した。
さらに,本手法を他のAVVPモデルに組み込むことで,解析結果をさらに高めることができることがわかった。
関連論文リスト
- LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing [26.2873961811614]
非整合知識のための学習インタラクション手法(リンク)を提案する。
リンクは、イベント予測中に入力を動的に調整することで、異なるモダリティのコントリビューションを均衡させる。
疑似ラベルの意味情報を事前知識として活用し、他のモーダルからノイズを緩和する。
論文 参考訳(メタデータ) (2024-12-30T11:23:15Z) - Video Summarization using Denoising Diffusion Probabilistic Model [21.4190413531697]
本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。
具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。
提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
論文 参考訳(メタデータ) (2024-12-11T13:02:09Z) - Temporal As a Plugin: Unsupervised Video Denoising with Pre-Trained Image Denoisers [30.965705043127144]
本稿では,TAP (Temporal As aTAP) という,教師なしのビデオデノベーションフレームワークを提案する。
時間的加群を組み込むことで、ノイズの多いフレームをまたがる時間的情報を活用することができ、空間的 denoising のパワーを補完することができる。
他の教師なしビデオ復号化手法と比較して,本フレームワークは,SRGBと生ビデオ復号化データセットの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T15:05:33Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - IDR: Self-Supervised Image Denoising via Iterative Data Refinement [66.5510583957863]
本稿では,最先端のデノナイジング性能を実現するために,教師なしの実用的なデノナイジング手法を提案する。
本手法では, 1つのノイズ画像と1つのノイズモデルしか必要とせず, 実際の生画像に容易にアクセス可能である。
実世界のアプリケーションにおける生画像復調性能を評価するため,500シーンのシーンを含む高品質な生画像データセットSenseNoise-500を構築した。
論文 参考訳(メタデータ) (2021-11-29T07:22:53Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Learning Model-Blind Temporal Denoisers without Ground Truths [46.778450578529814]
合成データで訓練されたデノイザーは、未知のノイズの多様性に対処できないことが多い。
従来の画像ベース手法は、ビデオデノイザに直接適用した場合、ノイズが過度に収まる。
本稿では,これらの課題に対処する上で有効な,ビデオ・デノベーション・ネットワークの汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-07T07:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。