論文の概要: NeoAMT: Neologism-Aware Agentic Machine Translation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.03790v1
- Date: Wed, 07 Jan 2026 10:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.182218
- Title: NeoAMT: Neologism-Aware Agentic Machine Translation with Reinforcement Learning
- Title(参考訳): NeoAMT: 強化学習を用いたネオロジズム対応エージェント機械翻訳
- Authors: Zhongtao Miao, Kaiyan Zhao, Masaaki Nagata, Yoshimasa Tsuruoka,
- Abstract要約: ネオロジズムを意識した機械翻訳は、ネオロジズムを含む原文を対象言語に翻訳することを目的としている。
We propose a agentic framework, NeoAMT for neologism-aware machine translation using a Wiktionary search tool。
- 参考スコア(独自算出の注目度): 17.95065343652151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neologism-aware machine translation aims to translate source sentences containing neologisms into target languages. This field remains underexplored compared with general machine translation (MT). In this paper, we propose an agentic framework, NeoAMT, for neologism-aware machine translation using a Wiktionary search tool. Specifically, we first create a new dataset for neologism-aware machine translation and develop a search tool based on Wiktionary. The new dataset covers 16 languages and 75 translation directions and is derived from approximately 10 million records of an English Wiktionary dump. The retrieval corpus of the search tool is also constructed from around 3 million cleaned records of the Wiktionary dump. We then use it for training the translation agent with reinforcement learning (RL) and evaluating the accuracy of neologism-aware machine translation. Based on this, we also propose an RL training framework that contains a novel reward design and an adaptive rollout generation approach by leveraging "translation difficulty" to further improve the translation quality of translation agents using our search tool.
- Abstract(参考訳): ネオロジズムを意識した機械翻訳は、ネオロジズムを含む原文を対象言語に翻訳することを目的としている。
この分野は一般機械翻訳(MT)と比較すると未解明のままである。
本稿では,Wiktionary Searchツールを用いたニューロジズム対応機械翻訳のためのエージェントフレームワークNeoAMTを提案する。
具体的には、まずネオロジズムを意識した機械翻訳のための新しいデータセットを作成し、Wiktionaryに基づく検索ツールを開発する。
新しいデータセットは16の言語と75の翻訳方向をカバーしており、約1000万件の英語のWiktionary dumpから作成されている。
検索ツールの検索コーパスは、Wiktionary dumpの300万件のクリーニング記録から構築されている。
次に、強化学習(RL)を用いて翻訳エージェントを訓練し、ネオロジズム対応機械翻訳の精度を評価する。
また、「翻訳困難」を活用して新たな報酬設計と適応的なロールアウト生成手法を取り入れたRLトレーニングフレームワークを提案し、検索ツールを用いた翻訳エージェントの翻訳品質をさらに向上させる。
関連論文リスト
- Creating Domain-Specific Translation Memories for Machine Translation Fine-tuning: The TRENCARD Bilingual Cardiology Corpus [0.0]
本稿では,翻訳者が主に使用する翻訳ツールを活用した半自動TM作成手法を紹介する。
TRENCARD Corpusと呼ばれる結果のコーパスには、約80,000のソースワードと5万の文がある。
論文 参考訳(メタデータ) (2024-09-04T12:48:30Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Machine Translation Models are Zero-Shot Detectors of Translation Direction [46.41883195574249]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。
本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,$p(texttranslation|text Origin)>p(textgenic|texttranslation)$という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (2024-01-12T18:59:02Z) - Extract and Attend: Improving Entity Translation in Neural Machine
Translation [141.7840980565706]
NMTにおけるエンティティ翻訳を強化するための抽出・アテンド手法を提案する。
提案手法は,エンティティの翻訳精度と全体的な翻訳品質の向上に有効である。
論文 参考訳(メタデータ) (2023-06-04T03:05:25Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Extended Parallel Corpus for Amharic-English Machine Translation [0.0]
リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスを用いて,ニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
論文 参考訳(メタデータ) (2021-04-08T06:51:08Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。