論文の概要: Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization
- arxiv url: http://arxiv.org/abs/2605.02223v1
- Date: Mon, 04 May 2026 04:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.141863
- Title: Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization
- Title(参考訳): 微粒化音声塗装鑑定法に向けて:マルチリージョン・タンパリング・ローカライゼーションのためのデータセット,方法,およびメトリクス
- Authors: Tung Vu, Yen Nguyen, Hai Nguyen, Cuong Pham, Cong Tran,
- Abstract要約: MIST (Multi Regional Inpainting Speech Tampering) は、6つの言語にまたがる大規模多言語データセットである。
ISA (Iterative Segment Analysis) は、粗いスライディングウインドウ分類を行うバックボーンに依存しないフレームワークである。
SF1@tauは時間的IoUマッチングに基づくセグメントレベルのF1メトリックである。
- 参考スコア(独自算出の注目度): 7.260139045446439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in voice cloning and text-to-speech synthesis have made partial speech manipulation - where an adversary replaces a few words within an utterance to alter its meaning while preserving the speaker's identity - an increasingly realistic threat. Existing audio deepfake detection benchmarks focus on utterance-level binary classification or single-region tampering, leaving a critical gap in detecting and localizing multiple inpainted segments whose count is unknown a priori. We address this gap with three contributions. First, we introduce MIST (Multiregion Inpainting Speech Tampering), a large-scale multilingual dataset spanning 6 languages with 1-3 independently inpainted word-level segments per utterance, generated via LLM-guided semantic replacement and neural voice cloning, with fake content constituting only 2-7% of each utterance. Second, we propose ISA (Iterative Segment Analysis), a backbone-agnostic framework that performs coarse-to-fine sliding-window classification with gap-tolerant region proposal and boundary refinement to recover all tampered regions without prior knowledge of their count. Third, we define SF1@tau, a segment-level F1 metric based on temporal IoU matching that jointly evaluates region count accuracy and localization precision. Zero-shot evaluation reveals that partial inpainting at word granularity remains unsolved by existing deepfake detectors: utterance-level classifiers trained on fully synthesized speech assign near zero fake probability to MIST utterances where only 2-7% of content is manipulated. ISA consistently outperforms non-iterative baselines in this challenging setting, and the dataset, code, and evaluation toolkit are publicly released.
- Abstract(参考訳): 音声のクローン化と音声合成の最近の進歩により、一部の音声操作がおこなわれており、相手が発話中のいくつかの単語を置き換えて、話者のアイデンティティを保ちながらその意味を変えることは、ますます現実的な脅威となっている。
既存のオーディオディープフェイク検出ベンチマークでは、発話レベルのバイナリ分類や単一領域の改ざんに重点を置いている。
このギャップに3つのコントリビューションで対処します。
まず,MIST(Multi Regional Inpainting Speech Tampering)を導入し,各発話の2~7%に過ぎず,LLM誘導のセマンティック・リプレースとニューラル・ボイス・クローニングによって生成する6言語と1~3の独立な単語レベルセグメントからなる大規模多言語データセットについて紹介する。
第2にISA(Iterative Segment Analysis)を提案する。これは、粗大なスライディングウインドウ分類を行うバックボーン非依存のフレームワークで、ギャップ耐性領域の提案とバウンダリリリレファメンデーションにより、そのカウントを事前に知ることなく、全ての改ざんされた領域を復元する。
第三にSF1@tauは、時間的IoUマッチングに基づいて、領域カウント精度と局所化精度を共同で評価するセグメントレベルF1メトリックである。
完全合成音声で訓練された発話レベル分類器は、コンテンツの2~7%しか操作されないMIST発話にほぼゼロフェイク確率を割り当てる。
ISAは、この挑戦的な設定において、一貫性のないベースラインを一貫して上回り、データセット、コード、評価ツールキットが公開されている。
関連論文リスト
- Split and Conquer Partial Deepfake Speech [1.8949616457421692]
部分的なディープフェイク音声検出は、他のボナフッド発話の短い時間的部分で発生する可能性のある操作された領域を特定する必要がある。
本稿では,境界検出とセグメントレベルの分類という2つの段階に分解する,分割・分散型フレームワークを提案する。
partialSpoofベンチマークの実験では、複数の時間分解能および発話レベルでの最先端性能が示されている。
論文 参考訳(メタデータ) (2026-04-03T09:33:01Z) - GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。
GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。
第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
論文 参考訳(メタデータ) (2025-09-19T14:36:01Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings [2.615008111842321]
セマンティック音声エンコーダを用いたトピックセグメンテーションのためのエンドツーエンドスキームを提案する。
そこで本研究では,1000時間の公開録音を特徴とするデータセットを用いて,音声ニューストピックセグメンテーションのための新しいベンチマークを提案する。
この結果から,従来のパイプライン方式では英語のP_k$スコアが0.2431であるのに対して,エンドツーエンドモデルは競争力のあるP_k$スコアが0.2564であることがわかった。
論文 参考訳(メタデータ) (2024-09-10T05:24:36Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation [31.87235700253597]
本論文では,非ラベル音声データから電話型音響ユニット(AUD)を自動的に発見する。
第1段階は単語識別的特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,検出された音響単位として電話型クラスタを得る,という2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-02T11:43:07Z) - Video-based Sign Language Recognition without Temporal Segmentation [88.03159640595187]
本稿では,時間分割の事前処理を不要とする新しい連続符号認識フレームワークを提案する。
提案するLS-HANは,映像特徴表現生成のための2ストリーム畳み込みニューラルネットワーク(CNN),意味ギャップブリッジのための潜時空間,潜在空間に基づく認識のための階層的注意ネットワーク(HAN)の3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2018-01-30T17:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。