論文の概要: Modeling Context With Linear Attention for Scalable Document-Level
Translation
- arxiv url: http://arxiv.org/abs/2210.08431v1
- Date: Sun, 16 Oct 2022 03:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:16:13.405882
- Title: Modeling Context With Linear Attention for Scalable Document-Level
Translation
- Title(参考訳): スケーラブルな文書レベル変換のための線形注意によるモデリングコンテキスト
- Authors: Zhaofeng Wu, Hao Peng, Nikolaos Pappas, Noah A. Smith
- Abstract要約: 本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
- 参考スコア(独自算出の注目度): 72.41955536834702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level machine translation leverages inter-sentence dependencies to
produce more coherent and consistent translations. However, these models,
predominantly based on transformers, are difficult to scale to long documents
as their attention layers have quadratic complexity in the sequence length.
Recent efforts on efficient attention improve scalability, but their effect on
document translation remains unexplored. In this work, we investigate the
efficacy of a recent linear attention model by Peng et al. (2021) on document
translation and augment it with a sentential gate to promote a recency
inductive bias. We evaluate the model on IWSLT 2015 and OpenSubtitles 2018
against the transformer, demonstrating substantially increased decoding speed
on long sequences with similar or better BLEU scores. We show that sentential
gating further improves translation quality on IWSLT.
- Abstract(参考訳): 文書レベルの機械翻訳は、文間依存関係を利用してより一貫性のある一貫した翻訳を生成する。
しかしながら、これらのモデルは、主にトランスフォーマーに基づいており、注意層が配列長の二次的複雑さを持つため、長い文書にスケールすることは困難である。
近年の効率的注意の努力はスケーラビリティを向上させるが、文書翻訳への影響は未定である。
本研究では,peng et al. (2021) による最近のリニア・アテンション・モデルによる文書翻訳の有効性について検討し,それをセンテンシャルゲートで補強することで,帰納的バイアスを助長する。
iwslt 2015とopensubtitles 2018でトランスフォーマーに対して評価を行い、類似またはより優れたbleuスコアの長いシーケンスでデコード速度が大幅に向上したことを示した。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
関連論文リスト
- Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions [24.025242477280983]
機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。
この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。
様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:28:26Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - TranSFormer: Slow-Fast Transformer for Machine Translation [52.12212173775029]
本稿では,TrantextbfSFormerと呼ばれる2ストリーム学習モデルを提案する。
我々のTranSFormerは、複数の機械翻訳ベンチマークにおいて、BLEUの一貫性のある改善(BLEU点よりも大きい)を示す。
論文 参考訳(メタデータ) (2023-05-26T14:37:38Z) - Non-Autoregressive Neural Machine Translation: A Call for Clarity [3.1447111126465]
我々は、非自己回帰的翻訳モデルを改善するために提案されたいくつかの手法を再検討する。
我々は,長文予測やCTCに基づくアーキテクチャ変種を用いて,強力なベースラインを確立するための新たな洞察を提供する。
4つの翻訳タスクに対してsareBLEUを用いて,標準化されたBLEU,chrF++,TERスコアをコントリビュートする。
論文 参考訳(メタデータ) (2022-05-21T12:15:22Z) - Do Long-Range Language Models Actually Use Long-Range Context? [27.084888397778823]
言語モデルは一般的に、短絡した入力シーケンスに基づいて訓練される。
近年の自己注意の効率向上に向けた取り組みは、長距離トランスフォーマー言語モデルの普及につながっている。
論文 参考訳(メタデータ) (2021-09-19T12:49:43Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。