論文の概要: Simultaneous Speech-to-Speech Translation Without Aligned Data
- arxiv url: http://arxiv.org/abs/2602.11072v1
- Date: Wed, 11 Feb 2026 17:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.254641
- Title: Simultaneous Speech-to-Speech Translation Without Aligned Data
- Title(参考訳): 有意データのない同時音声音声合成
- Authors: Tom Labiausse, Romain Fabre, Yannick Estève, Alexandre Défossez, Neil Zeghidour,
- Abstract要約: 同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。
単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。
Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 52.467808474293605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Simultaneous speech translation requires translating source speech into a target language in real-time while handling non-monotonic word dependencies. Traditional approaches rely on supervised training with word-level aligned data, which is difficult to collect at scale and thus depends on synthetic alignments using language-specific heuristics that are suboptimal. We propose Hibiki-Zero, which eliminates the need for word-level alignments entirely. This fundamentally simplifies the training pipeline and enables seamless scaling to diverse languages with varying grammatical structures, removing the bottleneck of designing language-specific alignment heuristics. We first train on sentence-level aligned data to learn speech translation at high latency, then apply a novel reinforcement learning strategy using GRPO to optimize latency while preserving translation quality. Hibiki-Zero achieves state-of-the-art performance in translation accuracy, latency, voice transfer, and naturalness across five X-to-English tasks. Moreover, we demonstrate that our model can be adapted to support a new input language with less than 1000h of speech. We provide examples, model weights, inference code and we release a benchmark containing 45h of multilingual data for speech translation evaluation.
- Abstract(参考訳): 非単調な単語依存を処理しながら、ソース音声を対象言語にリアルタイムに翻訳する必要がある。
従来のアプローチは、単語レベルの整列データによる教師付きトレーニングに依存しており、大規模な収集が困難であるため、言語固有のヒューリスティックを用いた合成アライメントに依存している。
単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。
これにより、トレーニングパイプラインを根本的に単純化し、文法構造が変化する多様な言語へのシームレスなスケーリングを可能にし、言語固有のアライメントヒューリスティックを設計するボトルネックを取り除くことができる。
まず,高いレイテンシで音声翻訳を学習するために文レベルの整列データをトレーニングし,GRPOを用いた新しい強化学習戦略を適用し,翻訳品質を保ちながらレイテンシを最適化する。
Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
さらに,1000h未満の音声で新しい入力言語をサポートできることを示す。
サンプル、モデル重み、推論コードを提供し、音声翻訳評価のための45hの多言語データを含むベンチマークをリリースする。
関連論文リスト
- POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation [47.51298472124902]
本稿では,言語間並列音声ペアと,高リソースと低リソースの翻訳ギャップを橋渡しする最適トランスポート(OT)に基づく新しいフレームワークを提案する。
提案手法は,平均5言語以上で+0.93 BLEU,ゼロショット言語で+5.05 BLEUのSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-11-12T11:47:56Z) - Improving Language and Modality Transfer in Translation by Character-level Modeling [14.145120349133007]
現在の翻訳システムは多言語であるにもかかわらず、世界の言語のうち5%しかカバーしていない。
新しい言語やモダリティへの適応性を改善するための文字ベースアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-30T13:16:08Z) - High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文 参考訳(メタデータ) (2025-02-05T17:18:55Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。