論文の概要: ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2604.16749v1
- Date: Fri, 17 Apr 2026 23:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.158321
- Title: ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection
- Title(参考訳): ICLAD:オーディオディープフェイク検出のための比較ガイダンスを用いたインコンテキスト学習
- Authors: Benjamin Chou, Yi Zhu, Surya Koppisetti,
- Abstract要約: textbfIn-textbfContext textbfLearning パラダイムを,textbfAudio textbfDeepfake 検出のための比較ガイダンスとして導入する。
このフレームワークは、学習不要なディープフェイクの一般化にオーディオ言語モデル(ALM)を使用することができる。
- 参考スコア(独自算出の注目度): 7.887913982488066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio deepfakes pose a significant security threat, yet current state-of-the-art (SOTA) detection systems do not generalize well to realistic in-the-wild deepfakes. We introduce a novel \textbf{I}n-\textbf{C}ontext \textbf{L}earning paradigm with comparison-guidance for \textbf{A}udio \textbf{D}eepfake detection (\textbf{ICLAD}). The framework enables the use of audio language models (ALMs) for training-free generalization to unseen deepfakes and provides textual rationales on the detection outcome. At the core of ICLAD is a pairwise comparative reasoning strategy that guides the ALM to discover and filter hallucinations and deepfake-irrelevant acoustic attributes. The ALM works alongside a specialized deepfake detector, whereby a routing mechanism feeds out-of-distribution samples to the ALM. On in-the-wild datasets, ICLAD improves macro F1 over the specialized detector, with up to $2\times$ relative improvement. Further analysis demonstrates the flexibility of ICLAD and its potential for deployment on recent open-source ALMs.
- Abstract(参考訳): オーディオディープフェイクは、重大なセキュリティ上の脅威をもたらすが、現在の最先端(SOTA)検出システムは、現実的なインザワイルドディープフェイクにはうまく一般化しない。
本稿では, 比較ガイダンスを用いた新規な \textbf{I}n-\textbf{C}ontext \textbf{L}earning パラダイムを導入し, 比較ガイダンスとして \textbf{A}udio \textbf{D}eepfake detection (\textbf{ICLAD}) を提案する。
このフレームワークは、学習不要の一般化にオーディオ言語モデル(ALM)を使用することで、ディープフェイクを見えないようにし、検出結果に関するテキスト的根拠を提供する。
ICLADの中核は、ALMを誘導して幻覚と深いフェイク関連音響特性を発見しフィルターするペアワイズ比較推論戦略である。
ALMは専用のディープフェイク検出器と共に機能し、ルーティング機構はALMに配布外のサンプルを供給している。
In-the-wildデータセットでは、ICLADは特別な検出器よりもマクロF1を改善し、最大で2\times$の相対的な改善を実現している。
さらなる分析は、ICLADの柔軟性と最近のオープンソースALMへのデプロイの可能性を示している。
関連論文リスト
- Leave No Stone Unturned: Uncovering Holistic Audio-Visual Intrinsic Coherence for Deepfake Detection [27.756028843178708]
生成AIは、個人のセキュリティと社会的信頼に対する脅威を強化する、超現実的なオーディオ視覚的ディープフェイクを可能にした。
既存のディープフェイク検出器の多くは、ユニモーダルなアーティファクトやオーディオと視覚の相違に依存しており、両方の情報源を共同で活用することができない。
我々は、頑健で一般化可能な検出は、本質的な音声-視覚的コヒーレンスをモダリティ内および全範囲に根ざすべきであると論じている。
我々は,現在最先端の商用発電機からのテキスト・ツー・ビデオ・フォージェリーと画像・ビデオ・フォージェリーを併用した高忠実なオーディオ・ビジュアル・ディープフェイク・データセットであるHiFi-AVDFを紹介する。
論文 参考訳(メタデータ) (2026-03-25T05:44:25Z) - Investigating the Viability of Employing Multi-modal Large Language Models in the Context of Audio Deepfake Detection [6.491407316650203]
VLM(Vision-Language Models)とMLLM(Multimodal Large Language Models)は、画像やビデオのディープフェイクの検出において、強力な一般化を示している。
我々は,音声深度検出のためのMLLMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2026-01-02T18:17:22Z) - KLASSify to Verify: Audio-Visual Deepfake Detection Using SSL-based Audio and Handcrafted Visual Features [1.488627850405606]
AV-Deepfake1M 2025チャレンジに対するマルチモーダルアプローチを提案する。
視覚的モダリティには手作りの機能を活用して解釈性と適応性を向上させる。
音声のモダリティには、グラフアテンションネットワークと組み合わせた自己教師付き学習バックボーンを適用し、リッチな音声表現をキャプチャする。
当社のアプローチでは、レジリエンスと潜在的な解釈可能性に重点を置いて、パフォーマンスと実世界のデプロイメントのバランスを取ります。
論文 参考訳(メタデータ) (2025-08-10T13:29:08Z) - Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。