Fugu-MT 論文翻訳(概要): Speech Editing -- a Summary

論文の概要: Speech Editing -- a Summary

arxiv url: http://arxiv.org/abs/2407.17172v1
Date: Wed, 24 Jul 2024 11:22:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 14:04:14.568151
Title: Speech Editing -- a Summary
Title（参考訳）: 音声編集 - 概要
Authors: Tobias Kässmann, Yining Liu, Danni Liu,
Abstract要約: 本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
参考スコア（独自算出の注目度）: 8.713498822221222
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rise of video production and social media, speech editing has become crucial for creators to address issues like mispronunciations, missing words, or stuttering in audio recordings. This paper explores text-based speech editing methods that modify audio via text transcripts without manual waveform editing. These approaches ensure edited audio is indistinguishable from the original by altering the mel-spectrogram. Recent advancements, such as context-aware prosody correction and advanced attention mechanisms, have improved speech editing quality. This paper reviews state-of-the-art methods, compares key metrics, and examines widely used datasets. The aim is to highlight ongoing issues and inspire further research and innovation in speech editing.
Abstract（参考訳）: ビデオ制作やソーシャルメディアの普及に伴い、クリエーターにとって、誤認識や単語の欠落、音声録音の混乱といった問題に対処する上で、音声編集が不可欠になっている。本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。これらのアプローチは、メルスペクトルを変化させることで、編集されたオーディオがオリジナルと区別できないことを保証する。文脈認識の韻律補正や高度な注意機構などの最近の進歩は、音声編集の質を改善している。本稿では、最先端の手法をレビューし、鍵となる指標を比較し、広く使われているデータセットについて検討する。目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。

関連論文リスト

RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文参考訳（メタデータ） (2025-09-17T14:13:40Z)
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-01-07T14:17:47Z)
Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文参考訳（メタデータ） (2024-10-09T22:02:30Z)
FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。音声の未修正部分と編集部分のシームレスな統合は難しいままです本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文参考訳（メタデータ） (2024-09-28T10:18:35Z)
DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency [20.3466261946094]
我々は,OODテキストシナリオの性能向上を目的とした新しい音声編集モデルであるDiffEditorを紹介する。事前学習した言語モデルから抽出した単語埋め込みを統合することで,音素埋め込みの意味情報を豊かにする。本稿では、編集境界におけるスムーズな遷移を促進し、編集された音声の全体的な流速を高めるための1次損失関数を提案する。
論文参考訳（メタデータ） (2024-09-19T07:11:54Z)
Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文参考訳（メタデータ） (2023-10-19T16:09:44Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。未知の話者のスピーチを編集することもできる。
論文参考訳（メタデータ） (2022-12-20T12:02:40Z)
CorrectSpeech: A Fully Automated System for Speech Correction and Accent Reduction [37.52612296258531]
提案方式はCorrectSpeechと呼ばれ、3段階の修正を行う。補正音声の品質と自然性は、音声認識とアライメントモジュールの性能に依存する。その結果,音声の発音誤りを訂正し,アクセントを低減できることがわかった。
論文参考訳（メタデータ） (2022-04-12T01:20:29Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文参考訳（メタデータ） (2022-02-21T02:05:14Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文参考訳（メタデータ） (2021-02-16T18:16:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。