論文の概要: Towards Chapter-to-Chapter Context-Aware Literary Translation via Large Language Models
- arxiv url: http://arxiv.org/abs/2407.08978v1
- Date: Fri, 12 Jul 2024 04:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:46:38.925482
- Title: Towards Chapter-to-Chapter Context-Aware Literary Translation via Large Language Models
- Title(参考訳): 大規模言語モデルによる第1章から第2章へのコンテキスト認識文学翻訳に向けて
- Authors: Linghao Jin, Li An, Xuezhe Ma,
- Abstract要約: 既存の文書レベルの翻訳データセットにおける談話現象は少ない。
既存の文書レベルのコーパスや文脈対応機械翻訳手法は、文レベルのアライメントに関する非現実的な仮定に依存している。
本稿では,Ch2Ch(チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/
- 参考スコア(独自算出の注目度): 16.96647110733261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discourse phenomena in existing document-level translation datasets are sparse, which has been a fundamental obstacle in the development of context-aware machine translation models. Moreover, most existing document-level corpora and context-aware machine translation methods rely on an unrealistic assumption on sentence-level alignments. To mitigate these issues, we first curate a novel dataset of Chinese-English literature, which consists of 160 books with intricate discourse structures. Then, we propose a more pragmatic and challenging setting for context-aware translation, termed chapter-to-chapter (Ch2Ch) translation, and investigate the performance of commonly-used machine translation models under this setting. Furthermore, we introduce a potential approach of finetuning large language models (LLMs) within the domain of Ch2Ch literary translation, yielding impressive improvements over baselines. Through our comprehensive analysis, we unveil that literary translation under the Ch2Ch setting is challenging in nature, with respect to both model learning methods and translation decoding algorithms.
- Abstract(参考訳): 既存の文書レベルの翻訳データセットにおける談話現象は希少であり、文脈対応機械翻訳モデルの開発において根本的な障害となっている。
さらに、既存の文書レベルのコーパスや文脈対応機械翻訳手法は、文レベルのアライメントに関する非現実的な仮定に依存している。
これらの問題を緩和するために、我々はまず、複雑な談話構造を持つ160冊の本からなる漢文文学の新しいデータセットをキュレートする。
そこで本稿では,Ch2Ch(チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/チャプタ/
さらに,Ch2Ch文の翻訳領域において,大規模言語モデル(LLM)を微調整する潜在的なアプローチを導入する。
包括的分析を通して、モデル学習法と翻訳復号アルゴリズムの両方に関して、Ch2Ch設定による文体翻訳が本質的に困難であることを明らかにする。
関連論文リスト
- Context-aware and Style-related Incremental Decoding framework for Discourse-Level Literary Translation [9.823430236885896]
文学テキストの翻訳は、ニュアンス的な意味、慣用的な表現、複雑な物語構造のために大きな課題を生んでいる。
これらの課題に対処するために、我々はCPT(Continuous Pre-Training)とSFT(Supervised Fine-Tuning)を組み合わせた中国語-Llama2モデルを利用した。
提案手法は,各文がより広い文脈で翻訳されることを保証する新しいインクリメンタル・デコーディング・フレームワークを含む。
論文 参考訳(メタデータ) (2024-09-25T01:27:24Z) - A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Challenges in Context-Aware Neural Machine Translation [39.89082986080746]
コンテキスト対応ニューラルマシン翻訳は、会話依存を解決するために、文レベルのコンテキストを超えた情報を活用する。
十分な直感にもかかわらず、ほとんどの文脈対応翻訳モデルは、文レベルシステムよりもわずかに改善されている。
本稿では,パラパラグラフ(パラパラグラフ)翻訳という,文書レベルの翻訳のより現実的な設定を提案する。
論文 参考訳(メタデータ) (2023-05-23T07:08:18Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Contrastive Learning for Context-aware Neural Machine TranslationUsing
Coreference Information [14.671424999873812]
ソース文と文脈文のコア参照に基づく新しいデータ拡張とコントラスト学習方式であるCorefCLを提案する。
コンテキスト文で検出されたコア参照の言及を自動的に破損させることで、CorefCLはコア参照の不整合に敏感なモデルをトレーニングすることができる。
実験では,英語・ドイツ語・韓国語タスクの比較モデルのBLEUを一貫して改善した。
論文 参考訳(メタデータ) (2021-09-13T05:18:47Z) - Context-aware Decoder for Neural Machine Translation using a Target-side
Document-Level Language Model [12.543106304662059]
本稿では,文書レベルの言語モデルをデコーダに組み込むことで,文レベルの翻訳モデルを文脈認識モデルに変換する手法を提案する。
我々のデコーダは文レベルのパラレルコーパスとモノリンガルコーパスのみに基づいて構築されている。
理論的観点からは、この研究の核となる部分は、文脈と現在の文間のポイントワイドな相互情報を用いた文脈情報の新しい表現である。
論文 参考訳(メタデータ) (2020-10-24T08:06:18Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。