論文の概要: Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network
- arxiv url: http://arxiv.org/abs/2505.01880v2
- Date: Wed, 07 May 2025 10:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 12:54:13.628921
- Title: Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network
- Title(参考訳): プログレッシブ・オーディオ・ラーニング・ネットワークによる弱教師付き時空間フォージェリー・ローカライゼーション
- Authors: Junyan Wu, Wenbo Xu, Wei Lu, Xiangyang Luo, Rui Yang, Shize Guo,
- Abstract要約: 既存のATFL手法は、細かいアノテーションを使って効率的なネットワークを訓練することに依存している。
そこで本稿では,ローカライズ性能を高めるために,協調学習と自己超越的手法を取り入れたプログレッシブ・オーディオ・コラーニング・ネットワーク(LOCO)を提案する。
提案したLOCOは3つの公開ベンチマークでSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 17.91342898415867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio temporal forgery localization (ATFL) aims to find the precise forgery regions of the partial spoof audio that is purposefully modified. Existing ATFL methods rely on training efficient networks using fine-grained annotations, which are obtained costly and challenging in real-world scenarios. To meet this challenge, in this paper, we propose a progressive audio-language co-learning network (LOCO) that adopts co-learning and self-supervision manners to prompt localization performance under weak supervision scenarios. Specifically, an audio-language co-learning module is first designed to capture forgery consensus features by aligning semantics from temporal and global perspectives. In this module, forgery-aware prompts are constructed by using utterance-level annotations together with learnable prompts, which can incorporate semantic priors into temporal content features dynamically. In addition, a forgery localization module is applied to produce forgery proposals based on fused forgery-class activation sequences. Finally, a progressive refinement strategy is introduced to generate pseudo frame-level labels and leverage supervised semantic contrastive learning to amplify the semantic distinction between real and fake content, thereby continuously optimizing forgery-aware features. Extensive experiments show that the proposed LOCO achieves SOTA performance on three public benchmarks.
- Abstract(参考訳): 音声の時間的フォージェリー・ローカライゼーション(ATFL)は、意図的に修正された部分的なスプーフ・オーディオの正確なフォージェリー領域を見つけることを目的としている。
既存のATFL手法は、現実世界のシナリオでコストがかかり難い、きめ細かいアノテーションを使って、効率的なネットワークを訓練することに依存している。
この課題に対処するため、我々は、弱い監督シナリオ下でのローカライゼーション性能を促進するために、協調学習と自己超越的手法を採用するプログレッシブ・オーディオ・コラーニング・ネットワーク(LOCO)を提案する。
具体的には、時間的およびグローバル的な視点から意味を整合させることにより、フォージェリーコンセンサスの特徴を捉えるために、オーディオ言語によるコラーニングモジュールが最初に設計された。
本モジュールでは, 発話レベルのアノテーションと学習可能なプロンプトを併用して, 時間的コンテンツ機能にセマンティックプリエントを動的に組み込むことによって, フォージェリ対応プロンプトを構築する。
さらに、融合フォージェリークラスのアクティベーションシーケンスに基づくフォージェリー提案を生成するために、フォージェリーローカライゼーションモジュールを適用する。
最後に、擬似フレームレベルラベルを生成し、教師付きセマンティックコントラスト学習を活用して、実物と偽物のセマンティックな区別を増幅し、偽物認識機能を継続的に最適化するプログレッシブ・リファインメント戦略を導入する。
大規模な実験により,提案したLOCOは3つの公開ベンチマークでSOTA性能を達成することが示された。
関連論文リスト
- AFANet: Adaptive Frequency-Aware Network for Weakly-Supervised Few-Shot Semantic Segmentation [37.9826204492371]
少ないショット学習は、いくつかのサンプルから学んだ事前知識を活用することで、新しい概念を認識することを目的としている。
弱教師付き少数ショットセマンティックセマンティックセグメンテーションのための適応周波数認識ネットワーク(AFANet)を提案する。
論文 参考訳(メタデータ) (2024-12-23T14:20:07Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Denoising-Contrastive Alignment for Continuous Sign Language Recognition [22.800767994061175]
連続手話認識は,手話ビデオからテキストグルースへの符号認識を目的としている。
現在のクロスモダリティアライメントパラダイムは、ビデオ表現を導くためにテキスト文法の役割を無視することが多い。
本稿では,映像の表現性を高めるために,Denoising-Contrastive Alignmentパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-05T15:20:27Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。