論文の概要: A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality
- arxiv url: http://arxiv.org/abs/2601.06307v1
- Date: Fri, 09 Jan 2026 20:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.742623
- Title: A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality
- Title(参考訳): A Rising Tide Lifts All Boats: MTQE Rewards for Idioms improveing General Translation Quality
- Authors: Ishika Agarwal, Zhenlin He, Dhruva Patil, Dilek Hakkani-Tür,
- Abstract要約: 非合成式(例:イディオム、証明、メタファー)は、ニューラルマシン翻訳システムに重大な課題をもたらす。
本稿では,機械翻訳品質推定(MTQE)モデルを用いたGRPO方式の微調整について検討する。
中国語とヒンディー語のデータセットを用いて、慣用的翻訳能力は14ポイント向上し、一般の非慣用的翻訳能力は8ポイント向上し、言語間翻訳能力(ある言語で訓練され、他の言語で評価される)は6ポイント向上した。
- 参考スコア(独自算出の注目度): 13.512688251831902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Non-compositional expressions (e.g., idioms, proverbs, and metaphors) pose significant challenges for neural machine translation systems because their meanings cannot be derived from individual words alone. These expressions encode rich, cultural meaning, and have both figurative and literal meanings, making accurate translation difficult. Because models are fairly good at translating compositional text, we investigate GRPO-style fine-tuning using Machine Translation Quality Estimation (MTQE) models as reward functions to train models to better translate idioms. Using Chinese and Hindi idiom datasets, we find that idiom translation abilities improve by ~14 points, general, non-idiomatic translation implicitly improves by ~8 points, and cross-lingual translation abilities (trained on one language, evaluated on another) improves by ~6 points. Overall, our work quantifies the non-compositional translation gap and offers insights for developing LLMs with stronger cross-cultural and figurative language understanding.
- Abstract(参考訳): 非合成表現(例、イディオム、証明、メタファー)は、個々の単語だけでは意味を導き出せないため、ニューラルマシン翻訳システムにおいて重要な課題を提起する。
これらの表現は豊かな文化的意味をエンコードし、比喩的意味と文字通りの意味の両方を持ち、正確な翻訳を困難にしている。
構成文の翻訳に長けたモデルであるため,機械翻訳品質推定(MTQE)モデルを用いたGRPOスタイルの微調整を報奨関数として検討した。
中国語とヒンディー語のイディオムデータセットを用いて、イディオム翻訳能力は14ポイント向上し、一般の非イディオム翻訳能力は8ポイント向上し、言語間翻訳能力(ある言語で訓練され、別の言語で評価される)は6ポイント向上した。
本研究は総合的に,非構成的翻訳のギャップを定量化するとともに,多文化的・具体的言語理解の強化をめざしてLLMを開発するための洞察を提供する。
関連論文リスト
- Evaluating LLMs on Chinese Idiom Translation [12.580058582681968]
近年の機械翻訳の進展にもかかわらず、中国語のイディオム翻訳についてはほとんど知られていない。
中国語の慣用句翻訳のための包括的な誤り分類を行うフレームワークであるEvalを紹介する。
論文 参考訳(メタデータ) (2025-08-14T07:52:56Z) - Graph-Assisted Culturally Adaptable Idiomatic Translation for Indic Languages [3.2498796510544636]
マルチワード式(MWE)とイディオムの翻訳には、ソース言語とターゲット言語の両方を深く理解する必要がある。
従来の静的知識グラフ(KG)とプロンプトベースのアプローチは、これらの複雑な関係を捉えるのに苦労する。
慣用的表現間の複雑なマッピングを学習する適応グラフニューラルネットワーク(GNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T03:42:16Z) - DeepTrans: Deep Reasoning Translation via Reinforcement Learning [65.96268429761842]
我々は、強化学習(RL)を通して自由翻訳を学ぶ深層推論翻訳モデルDeepTransを紹介する。
Qwen2.5-7Bをバックボーンとして使用することで、DeepTransは文学翻訳の16.3%の性能向上を実現している。
RL探査における失敗と興味深い発見を要約する。
論文 参考訳(メタデータ) (2025-04-14T12:40:39Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Do GPTs Produce Less Literal Translations? [20.095646048167612]
大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、機械翻訳の品質指標に類似またはより良いスコアが示されることがわかりました。
論文 参考訳(メタデータ) (2023-05-26T10:38:31Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation [55.52888815590317]
リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
論文 参考訳(メタデータ) (2022-05-30T17:59:32Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。