論文の概要: Speech Vecalign: an Embedding-based Method for Aligning Parallel Speech Documents
- arxiv url: http://arxiv.org/abs/2509.18360v1
- Date: Mon, 22 Sep 2025 19:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.547887
- Title: Speech Vecalign: an Embedding-based Method for Aligning Parallel Speech Documents
- Title(参考訳): 音声ベカリン:パラレル音声文書のアライメントのための埋め込み方式
- Authors: Chutong Meng, Philipp Koehn,
- Abstract要約: 音声ベカリンは並列文書アライメント法である。
Vecalignは音声セグメントの埋め込みを単調に調整する。
Vecalignはより長い音声と音声のアライメントを生成する。
- 参考スコア(独自算出の注目度): 12.409953903262732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Speech Vecalign, a parallel speech document alignment method that monotonically aligns speech segment embeddings and does not depend on text transcriptions. Compared to the baseline method Global Mining, a variant of speech mining, Speech Vecalign produces longer speech-to-speech alignments. It also demonstrates greater robustness than Local Mining, another speech mining variant, as it produces less noise. We applied Speech Vecalign to 3,000 hours of unlabeled parallel English-German (En-De) speech documents from VoxPopuli, yielding about 1,000 hours of high-quality alignments. We then trained En-De speech-to-speech translation models on the aligned data. Speech Vecalign improves the En-to-De and De-to-En performance over Global Mining by 0.37 and 0.18 ASR-BLEU, respectively. Moreover, our models match or outperform SpeechMatrix model performance, despite using 8 times fewer raw speech documents.
- Abstract(参考訳): 本稿では,音声セグメントの埋め込みを単調に調整し,テキストの書き起こしに依存しない並列音声文書アライメント手法であるSpeech Vecalignを提案する。
音声マイニングの変種であるGlobal Miningと比較して、Speech Vecalignはより長い音声と音声のアライメントを生成する。
また、他の音声マイニングの変種であるローカルマイニングよりも頑丈で、ノイズが少ないことも示している。
我々は,Voxpopuli の英語-ドイツ語 (En-De) 音声文書のラベル付けのない3000時間に音声ベカリンを適用し,1000時間程度の高品質なアライメントを実現した。
次に、アライメントされたデータに基づいてEn-De音声音声翻訳モデルを訓練した。
Speech Vecalign は、グローバルマイニングよりも En-to-De と De-to-En の性能を 0.37 と 0.18 ASR-BLEU で改善する。
さらに,本モデルでは,生音声文書の8倍も少ないにもかかわらず,音声行列モデルの性能に適合あるいは優れていた。
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus [0.0]
本稿では,低音源音声合成コーパスであるLoReSpeechの構築手法を提案する。
LoReSpeechは言語内アライメントと言語間アライメントの両方を提供し、多言語ASRシステムの進歩を可能にする。
論文 参考訳(メタデータ) (2025-02-25T14:00:15Z) - SSR: Alignment-Aware Modality Connector for Speech Language Models [23.859649312290447]
事前訓練された言語モデル(SpeechLM)に音声を融合することは、通常、長文音声の非効率な符号化や、事前訓練されたテキストのモダリティの破滅的な忘れ込みに悩まされる。
そこで我々は,SSR-Connector (Segmented Speech Representation Connector) を提案する。
論文 参考訳(メタデータ) (2024-09-30T19:17:46Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。