Fugu-MT 論文翻訳(概要): Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation

論文の概要: Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation

arxiv url: http://arxiv.org/abs/2210.13363v1
Date: Mon, 24 Oct 2022 16:06:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 16:51:49.101182
Title: Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation
Title（参考訳）: 音声-テキスト翻訳における修正ウィンド音声セグメンテーションの識別
Authors: Chantal Amrhein and Barry Haddow
Abstract要約: 完全な発話が話される前に、モデルが翻訳を開始する必要があるオンライン音声言語翻訳では、ほとんどの以前の研究はセグメント化の問題を無視している。オフライン・オンライン両方のセグメンテーションにおけるセグメンテーションエラーやセグメンテーション戦略に対するモデルの堅牢性を改善するための様々な手法を比較した。 5つの異なる言語対についての知見から, 簡単な固定ウィンドウ音声セグメント化が, 適切な条件で驚くほど良好に動作できることが示唆された。
参考スコア（独自算出の注目度）: 10.799623536095226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For real-life applications, it is crucial that end-to-end spoken language translation models perform well on continuous audio, without relying on human-supplied segmentation. For online spoken language translation, where models need to start translating before the full utterance is spoken, most previous work has ignored the segmentation problem. In this paper, we compare various methods for improving models' robustness towards segmentation errors and different segmentation strategies in both offline and online settings and report results on translation quality, flicker and delay. Our findings on five different language pairs show that a simple fixed-window audio segmentation can perform surprisingly well given the right conditions.
Abstract（参考訳）: 実生活アプリケーションでは、人間の供給するセグメンテーションに頼ることなく、エンド・ツー・エンドの音声翻訳モデルが連続音声でうまく機能することが重要である。オンライン音声翻訳では、モデルが完全な発話が話される前に翻訳を開始する必要があるが、ほとんどの先行研究はセグメンテーション問題を無視している。本稿では,オフライン・オンライン両方のセグメンテーションにおけるセグメンテーションエラーに対するモデルの堅牢性向上とセグメンテーション戦略の比較を行い,翻訳品質,フリック,遅延について報告する。 5つの異なる言語対についての知見から,簡単な固定ウィンドウ音声分割が,適切な条件で驚くほど良好に動作できることが示唆された。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。このアプローチは英語以外のタスクではうまくいきません。モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-15T15:14:01Z)
Lightweight Audio Segmentation for Long-form Speech Translation [17.743473111298826]
モデルサイズを小さくすることで、より優れた音声翻訳品質を実現するセグメンテーションモデルを提案する。また,音声分割モデルの基盤となるSTシステムへの適切な統合は,推論時の全体的な翻訳品質の向上に不可欠であることを示す。
論文参考訳（メタデータ） (2024-06-15T08:02:15Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文参考訳（メタデータ） (2024-04-08T15:21:17Z)
Long-Form End-to-End Speech Translation via Latent Alignment Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文参考訳（メタデータ） (2023-09-20T15:10:12Z)
End-to-End Simultaneous Speech Translation with Differentiable Segmentation [21.03142288187605]
SimulSTはストリーミング音声入力を受信しながら翻訳を出力する。音声入力を好ましくないタイミングにセグメント化することは、音響的整合性を阻害し、翻訳モデルの性能に悪影響を及ぼす可能性がある。そこで本研究では,SimulST における微分可能セグメンテーション (DiSeg) を提案し,基礎となる翻訳モデルから直接セグメンテーションを学習する。
論文参考訳（メタデータ） (2023-05-25T14:25:12Z)
M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文参考訳（メタデータ） (2022-11-02T14:54:45Z)
Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文参考訳（メタデータ） (2022-03-30T07:25:52Z)
Beyond Voice Activity Detection: Hybrid Audio Segmentation for Direct Speech Translation [14.151063458445826]
提案手法は,従来のVAD手法と最適手動分割のギャップを少なくとも30%減らし,他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-23T16:54:13Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)
Contextualized Translation of Automatically Segmented Speech [20.334746967390164]
ランダムにセグメント化されたデータに基づいてモデルをトレーニングし、ファインチューニングとコンテキストとして前のセグメントを追加するという2つのアプローチを比較します。我々の解は、VAD-segmentedの入力に対してより堅牢であり、強いベースモデルと最大4.25 BLEUポイントで設定された英独テストの異なるVADセグメンテーションの微調整よりも優れている。
論文参考訳（メタデータ） (2020-08-05T17:52:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。