論文の概要: Long-Form Speech Translation through Segmentation with Finite-State
Decoding Constraints on Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13678v2
- Date: Mon, 23 Oct 2023 15:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:13:09.728123
- Title: Long-Form Speech Translation through Segmentation with Finite-State
Decoding Constraints on Large Language Models
- Title(参考訳): 有限状態デコード制約付き分割による大言語モデルの長文音声翻訳
- Authors: Arya D. McCarthy, Hao Zhang, Shankar Kumar, Felix Stahlberg, Ke Wu
- Abstract要約: 大規模言語モデル(LLM)は、独立した翻訳が可能なセグメントに分割するために適応される。
LLMは、プロンプトチューニングや微調整によって、ASRエラーを含む書き起こしに適応できる。
最先端の自動句読解ベースラインとは対照的に、我々の最高のLLMは、英語-ドイツ語、英語-スペイン語、英語-アラビア語のTEDトーク翻訳を9つのテストセットで平均BLEUを2.9ポイント改善する。
- 参考スコア(独自算出の注目度): 25.618862664337644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One challenge in speech translation is that plenty of spoken content is
long-form, but short units are necessary for obtaining high-quality
translations. To address this mismatch, we adapt large language models (LLMs)
to split long ASR transcripts into segments that can be independently
translated so as to maximize the overall translation quality. We overcome the
tendency of hallucination in LLMs by incorporating finite-state constraints
during decoding; these eliminate invalid outputs without requiring additional
training. We discover that LLMs are adaptable to transcripts containing ASR
errors through prompt-tuning or fine-tuning. Relative to a state-of-the-art
automatic punctuation baseline, our best LLM improves the average BLEU by 2.9
points for English-German, English-Spanish, and English-Arabic TED talk
translation in 9 test sets, just by improving segmentation.
- Abstract(参考訳): 音声翻訳における1つの課題は、多くの音声コンテンツが長文であるが、高品質翻訳を得るためには短い単位が必要であることである。
このミスマッチに対処するため、我々は大きな言語モデル (LLM) を適用して長いASR文字を独立に翻訳可能なセグメントに分割し、全体的な翻訳品質を最大化する。
復号中に有限状態制約を組み込むことで, LLMにおける幻覚の傾向を克服する。
LLM は, 高速チューニングや微調整により, ASR エラーを含む書き起こしに適応できることが判明した。
最先端の自動句読点ベースラインと比較して,英語・ドイツ語・英語・スペイン語・英語・アラビア語のtedトークの平均bleuは,セグメンテーションを改良することによって,9つのテストセットで2.9ポイント向上した。
関連論文リスト
- Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [81.6546357879259]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language
Models [91.55398541853785]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Adaptive Machine Translation with Large Language Models [7.803471587734353]
実時間適応型機械翻訳を改善するために,テキスト内学習をいかに活用できるかを検討する。
英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対の実験を行った。
論文 参考訳(メタデータ) (2023-01-30T21:17:15Z) - Improved Long-Form Spoken Language Translation with Large Language
Models [15.792204200145251]
我々は、ASRの長い書き起こしを独立に翻訳できるセグメントに分割するために、汎用で大規模な言語モデルを微調整する。
提案手法は,3言語におけるBLEUスコアを,自動句読点よりも平均2.7BLEUで改善する。
論文 参考訳(メタデータ) (2022-12-19T22:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。