論文の概要: Segmentation-Free Streaming Machine Translation
- arxiv url: http://arxiv.org/abs/2309.14823v2
- Date: Sat, 25 May 2024 10:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 04:26:52.952742
- Title: Segmentation-Free Streaming Machine Translation
- Title(参考訳): セグメンテーションフリーストリーミング機械翻訳
- Authors: Javier Iranzo-Sánchez, Jorge Iranzo-Sánchez, Adrià Giménez, Jorge Civera, Alfons Juan,
- Abstract要約: Streaming Machine Translation (MT)は、入力されたテキストストリームをリアルタイムで翻訳するタスクである。
本稿では,翻訳が生成されるまでセグメンテーション決定を遅らせることにより,非セグメンテーションソースストリームの翻訳を可能にするフリーフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.247809853198223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming Machine Translation (MT) is the task of translating an unbounded input text stream in real-time. The traditional cascade approach, which combines an Automatic Speech Recognition (ASR) and an MT system, relies on an intermediate segmentation step which splits the transcription stream into sentence-like units. However, the incorporation of a hard segmentation constrains the MT system and is a source of errors. This paper proposes a Segmentation-Free framework that enables the model to translate an unsegmented source stream by delaying the segmentation decision until the translation has been generated. Extensive experiments show how the proposed Segmentation-Free framework has better quality-latency trade-off than competing approaches that use an independent segmentation model. Software, data and models will be released upon paper acceptance.
- Abstract(参考訳): Streaming Machine Translation (MT) は、非有界な入力テキストストリームをリアルタイムで翻訳するタスクである。
ASR(Automatic Speech Recognition)とMT(MT)システムを組み合わせた従来のカスケード手法は、転写ストリームを文のような単位に分割する中間セグメンテーションステップに依存している。
しかし、ハードセグメンテーションの組み入れはMTシステムに制約を与え、エラーの原因となる。
本稿では,セグメンテーション決定を翻訳が生成されるまで遅らせることで,非セグメンテーションソースストリームの変換を可能にするセグメンテーションフリーフレームワークを提案する。
大規模な実験は、提案されたセグメンテーションフリーフレームワークが、独立したセグメンテーションモデルを使用する競合するアプローチよりも品質とレイテンシのトレードオフが優れていることを示している。
ソフトウェア、データ、モデルは、論文の受理によってリリースされる。
関連論文リスト
- Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - End-to-End Simultaneous Speech Translation with Differentiable
Segmentation [21.03142288187605]
SimulSTはストリーミング音声入力を受信しながら翻訳を出力する。
音声入力を好ましくないタイミングにセグメント化することは、音響的整合性を阻害し、翻訳モデルの性能に悪影響を及ぼす可能性がある。
そこで本研究では,SimulST における微分可能セグメンテーション (DiSeg) を提案し,基礎となる翻訳モデルから直接セグメンテーションを学習する。
論文 参考訳(メタデータ) (2023-05-25T14:25:12Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - Subtitles to Segmentation: Improving Low-Resource Speech-to-Text
Translation Pipelines [15.669334598926342]
我々は、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点をあてる。
テレビ番組や映画のサブタイトルのデータセットを使用して、より良いASRセグメンテーションモデルをトレーニングします。
このノイズのある構文情報により,モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2020-10-19T17:32:40Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。