論文の概要: Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs
- arxiv url: http://arxiv.org/abs/2601.21463v1
- Date: Thu, 29 Jan 2026 09:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.707116
- Title: Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs
- Title(参考訳): 事前拡張音声LLMによる音声編集検出とコンテンツ位置の統一化
- Authors: Jun Xue, Yi Chai, Yanzhen Ren, Jinshen He, Zhiqiang Tang, Zhuolin Yi, Yihuan Huang, Yuankun Xie, Yujie Chen,
- Abstract要約: 音声編集は、グローバルな知覚自然性を維持しながら、元の発話に対してきめ細かいセグメントレベルの操作を行うことで意味的インバージョンを実現する。
既存の検出研究は主に、明示的なスプライシングアーティファクトによる手作業による音声編集に焦点を当てており、新たなエンドツーエンドの音声編集技術に対処するのに苦労している。
本稿では,音声質問応答タスクとして定式化することによって,音声編集検出とコンテンツローカライゼーションを統一する,最初の大規模モデルフレームワークPELMを提案する。
- 参考スコア(独自算出の注目度): 22.8529107367745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech editing achieves semantic inversion by performing fine-grained segment-level manipulation on original utterances, while preserving global perceptual naturalness. Existing detection studies mainly focus on manually edited speech with explicit splicing artifacts, and therefore struggle to cope with emerging end-to-end neural speech editing techniques that generate seamless acoustic transitions. To address this challenge, we first construct a large-scale bilingual dataset, AiEdit, which leverages large language models to drive precise semantic tampering logic and employs multiple advanced neural speech editing methods for data synthesis, thereby filling the gap of high-quality speech editing datasets. Building upon this foundation, we propose PELM (Prior-Enhanced Audio Large Language Model), the first large-model framework that unifies speech editing detection and content localization by formulating them as an audio question answering task. To mitigate the inherent forgery bias and semantic-priority bias observed in existing audio large models, PELM incorporates word-level probability priors to provide explicit acoustic cues, and further designs a centroid-aggregation-based acoustic consistency perception loss to explicitly enforce the modeling of subtle local distribution anomalies. Extensive experimental results demonstrate that PELM significantly outperforms state-of-the-art methods on both the HumanEdit and AiEdit datasets, achieving equal error rates (EER) of 0.57\% and 9.28\% (localization), respectively.
- Abstract(参考訳): 音声編集は、グローバルな知覚自然性を維持しながら、元の発話に対してきめ細かいセグメントレベルの操作を行うことで意味的インバージョンを実現する。
既存の検出研究は主に、明示的なスプライシングアーティファクトを用いた手作業による音声編集に重点を置いているため、シームレスな音響遷移を生成する新しいエンドツーエンドの音声編集技術に対処するのに苦労している。
この課題に対処するために,我々はまず,大規模バイリンガルデータセットであるAiEditを構築した。このデータセットは,大規模言語モデルを利用して,高精度なセマンティックタンパリングロジックを駆動し,複数の高度なニューラル音声編集手法を用いてデータ合成を行い,高品質な音声編集データセットのギャップを埋める。
本研究の基盤となるPELM(Prior-Enhanced Audio Large Language Model)は,音声質問応答タスクとして定式化することで,音声編集検出とコンテンツローカライゼーションを統一する最初の大規模フレームワークである。
PELMは、既存のオーディオ大モデルで観測される固有の偽りバイアスと意味優先バイアスを緩和するために、単語レベルの確率を前もって明示的な音響的手がかりを提供し、さらに、微妙な局所分布異常のモデリングを明示的に実施するために、遠心性アグリゲーションに基づく音響的整合性知覚損失を設計する。
大規模な実験の結果、PELMはHumanEditとAiEditの両方のデータセットで最先端の手法を大幅に上回り、それぞれ0.57\%と9.28\%(ローカライゼーション)の誤差率(EER)を達成した。
関連論文リスト
- Text-only adaptation in LLM-based ASR through text denoising [14.200885240373509]
テキストのみのデータを用いて、音声認識システムを新しいドメインに適応させることは、大きな課題だが未解明の課題である。
本稿では,テキスト記述タスクとして扱うことで,音声投影タスクをエミュレートする新しいテキストのみ適応手法を提案する。
私たちのソリューションは軽量で、アーキテクチャの変更やパラメータの追加は必要ありません。
論文 参考訳(メタデータ) (2026-01-28T10:18:23Z) - SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation [15.58921460046093]
本稿では,音声言語モデル(ALM)を用いて,予備的分離後のテキスト領域内での音声の修正と再合成を行う先駆的アプローチであるSepALMを紹介する。
SepALMは、セパレータ、修正器、シンセサイザー、調整器の4つのコアコンポーネントから構成される。
我々の実験は、SepALMが音声分離の精度を高めるだけでなく、新しい音響環境における適応性を著しく向上させることを実証している。
論文 参考訳(メタデータ) (2025-05-06T08:04:37Z) - Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文 参考訳(メタデータ) (2021-10-06T08:51:10Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。