論文の概要: Length Aware Speech Translation for Video Dubbing
- arxiv url: http://arxiv.org/abs/2506.00740v1
- Date: Sat, 31 May 2025 23:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.215836
- Title: Length Aware Speech Translation for Video Dubbing
- Title(参考訳): ビデオダビングのための長さ認識音声翻訳
- Authors: Harveen Singh Chadha, Aswin Shanmugam Subramanian, Vikas Joshi, Shubham Bansal, Jian Xue, Rupeshkumar Mehta, Jinyu Li,
- Abstract要約: 本研究では, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長, 音素長,
また、1つの復号パスで異なる長さの翻訳を生成する効率的なアプローチである長さ認識ビームサーチ(LABS)も導入する。
- 参考スコア(独自算出の注目度): 27.946422755130868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video dubbing, aligning translated audio with the source audio is a significant challenge. Our focus is on achieving this efficiently, tailored for real-time, on-device video dubbing scenarios. We developed a phoneme-based end-to-end length-sensitive speech translation (LSST) model, which generates translations of varying lengths short, normal, and long using predefined tags. Additionally, we introduced length-aware beam search (LABS), an efficient approach to generate translations of different lengths in a single decoding pass. This approach maintained comparable BLEU scores compared to a baseline without length awareness while significantly enhancing synchronization quality between source and target audio, achieving a mean opinion score (MOS) gain of 0.34 for Spanish and 0.65 for Korean, respectively.
- Abstract(参考訳): ビデオダビングでは、翻訳されたオーディオとソースオーディオを合わせることが大きな課題である。
私たちはこれを効率的に実現し、リアルタイムのオンデバイスビデオダビングシナリオに適したものにすることに重点を置いています。
音素をベースとした長節間長感性音声翻訳(LSST)モデルを構築し, 予め定義されたタグを用いて, 長節長, 正常, 長節長の翻訳を生成する。
さらに、1つの復号パスで異なる長さの翻訳を生成する効率的なアプローチである長さ認識ビームサーチ(LABS)を導入した。
このアプローチは、ソースとターゲットオーディオ間の同期品質を著しく向上させ、平均世論スコア(MOS)はスペイン語で0.34、韓国で0.65、それぞれ向上した。
関連論文リスト
- BLAB: Brutally Long Audio Bench [90.20616799311578]
Brutally Long Audio Bench (BLAB) は、音像定位、時間推定、感情、計数タスクについて、音声のLMを評価するロングフォームオーディオベンチマークである。
BLABは833時間以上の多様なフル長の音声クリップで構成されており、それぞれに人間の注釈付き、テキストベースの自然言語の質問と回答が組み合わされている。
BLAB 上で6つのオープンソースおよびプロプライエタリなオーディオ LM を評価し,Gemini 2.0 Pro や GPT-4o などの先進的なモデルを含む,すべてのタスクが苦労していることを確認した。
論文 参考訳(メタデータ) (2025-05-05T22:28:53Z) - Isochrony-Controlled Speech-to-Text Translation: A study on translating from Sino-Tibetan to Indo-European Languages [33.5772006275197]
エンドツーエンド音声翻訳(ST)は、ソース言語音声を直接ターゲット言語テキストに変換する。
多くのSTアプリケーションは、翻訳期間がソースオーディオの長さと一致することを保証するために、厳密な長さ制御を必要とする。
本稿では,シーケンス・ツー・シーケンスSTモデルの時間的アライメント特性の改善について述べる。
論文 参考訳(メタデータ) (2024-11-11T21:39:21Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Creating Speech-to-Speech Corpus from Dubbed Series [8.21384946488751]
本稿では,音声合成コーパスを構築するための教師なし手法を提案する。
提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを利用して,両言語のセグメントをマッチングする。
私たちのパイプラインは17時間のペアセグメントを生成することができました。
論文 参考訳(メタデータ) (2022-03-07T18:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。