論文の概要: Context-aware and Style-related Incremental Decoding framework for Discourse-Level Literary Translation
- arxiv url: http://arxiv.org/abs/2409.16539v2
- Date: Sun, 29 Sep 2024 09:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:30:16.693613
- Title: Context-aware and Style-related Incremental Decoding framework for Discourse-Level Literary Translation
- Title(参考訳): 談話レベル文学翻訳のための文脈認識とスタイル関連インクリメンタルデコーディングフレームワーク
- Authors: Yuanchang Luo, Jiaxin Guo, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhanglin Wu, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Hao Yang,
- Abstract要約: 文学テキストの翻訳は、ニュアンス的な意味、慣用的な表現、複雑な物語構造のために大きな課題を生んでいる。
これらの課題に対処するために、我々はCPT(Continuous Pre-Training)とSFT(Supervised Fine-Tuning)を組み合わせた中国語-Llama2モデルを利用した。
提案手法は,各文がより広い文脈で翻訳されることを保証する新しいインクリメンタル・デコーディング・フレームワークを含む。
- 参考スコア(独自算出の注目度): 9.823430236885896
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This report outlines our approach for the WMT24 Discourse-Level Literary Translation Task, focusing on the Chinese-English language pair in the Constrained Track. Translating literary texts poses significant challenges due to the nuanced meanings, idiomatic expressions, and intricate narrative structures inherent in such works. To address these challenges, we leveraged the Chinese-Llama2 model, specifically enhanced for this task through a combination of Continual Pre-training (CPT) and Supervised Fine-Tuning (SFT). Our methodology includes a novel Incremental Decoding framework, which ensures that each sentence is translated with consideration of its broader context, maintaining coherence and consistency throughout the text. This approach allows the model to capture long-range dependencies and stylistic elements, producing translations that faithfully preserve the original literary quality. Our experiments demonstrate significant improvements in both sentence-level and document-level BLEU scores, underscoring the effectiveness of our proposed framework in addressing the complexities of document-level literary translation.
- Abstract(参考訳): 本稿では,WMT24 Discourse-Level Literary Translation Taskに対する我々のアプローチについて概説する。
文学テキストの翻訳は、これらの作品に固有のニュアンスな意味、慣用的な表現、複雑な物語構造が原因で、大きな課題となっている。
これらの課題に対処するために,我々はCPT(Continuous Pre-Training)とSFT(Supervised Fine-Tuning)を組み合わせることで,このタスクを特に強化した中国語-Llama2モデルを利用した。
提案手法は,テキスト全体の一貫性と一貫性を維持しつつ,各文がより広い文脈で翻訳されることを保証する新しいインクリメンタル・デコーディング・フレームワークを含む。
このアプローチにより、モデルは長距離の依存関係とスタイル的要素をキャプチャし、元の文学的品質を忠実に保存する翻訳を生成することができる。
本実験は,文章レベルのBLEUスコアと文書レベルのBLEUスコアの両方において,文書レベルの文学翻訳の複雑さに対処する上で,提案手法の有効性を実証するものである。
関連論文リスト
- Translating Step-by-Step: Decomposing the Translation Process for Improved Translation Quality of Long-Form Texts [43.68711076100652]
本稿では, 翻訳前研究, ドラフト, 精錬, 証明読解などを含む多元間相互作用において, 言語モデルに係わるフレームワークを提案する。
ステップバイステップの翻訳により,従来のゼロショットプロンプト手法よりも翻訳品質が向上することを示す。
論文 参考訳(メタデータ) (2024-09-10T18:02:21Z) - Towards Chapter-to-Chapter Context-Aware Literary Translation via Large Language Models [16.96647110733261]
既存の文書レベルの翻訳データセットにおける談話現象は少ない。
既存の文書レベルのコーパスや文脈対応機械翻訳手法は、文レベルのアライメントに関する非現実的な仮定に依存している。
本稿では,Ch2Ch(チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/
論文 参考訳(メタデータ) (2024-07-12T04:18:22Z) - Efficiently Exploring Large Language Models for Document-Level Machine Translation with In-context Learning [38.89119606657543]
文レベルの翻訳とは対照的に、文脈内学習に基づく大規模言語モデル(LLM)による文書レベルの翻訳(DOCMT)は2つの大きな課題に直面している。
本研究では,文脈認識型プロンプト法(CAP)を提案する。
様々なDOCMTタスクに対して広範な実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-06-11T09:11:17Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Challenges in Context-Aware Neural Machine Translation [39.89082986080746]
コンテキスト対応ニューラルマシン翻訳は、会話依存を解決するために、文レベルのコンテキストを超えた情報を活用する。
十分な直感にもかかわらず、ほとんどの文脈対応翻訳モデルは、文レベルシステムよりもわずかに改善されている。
本稿では,パラパラグラフ(パラパラグラフ)翻訳という,文書レベルの翻訳のより現実的な設定を提案する。
論文 参考訳(メタデータ) (2023-05-23T07:08:18Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Time-Aware Ancient Chinese Text Translation and Inference [6.787414471399024]
我々は、古代漢文の翻訳をめぐる課題に対処することを目指している。
時代の違いによる言語的なギャップは、質の悪い翻訳をもたらす。
ほとんどの翻訳は、しばしばテキストを理解するのに非常に重要な文脈情報を欠いている。
論文 参考訳(メタデータ) (2021-07-07T12:23:52Z) - Long Text Generation by Modeling Sentence-Level and Discourse-Level
Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。
我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2021-05-19T07:29:08Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。