論文の概要: Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation
- arxiv url: http://arxiv.org/abs/2410.00683v1
- Date: Tue, 1 Oct 2024 13:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:25:20.097889
- Title: Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation
- Title(参考訳): 技術用語翻訳の効率化: パーエンテティカル・テミノロジー翻訳のための知識蒸留アプローチ
- Authors: Jiyoon Myung, Jihyeon Park, Jungki Son, Kyungro Lee, Joohyung Han,
- Abstract要約: 本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses the challenge of accurately translating technical terms, which are crucial for clear communication in specialized fields. We introduce the Parenthetical Terminology Translation (PTT) task, designed to mitigate potential inaccuracies by displaying the original term in parentheses alongside its translation. To implement this approach, we generated a representative PTT dataset using a collaborative approach with large language models and applied knowledge distillation to fine-tune traditional Neural Machine Translation (NMT) models and small-sized Large Language Models (sLMs). Additionally, we developed a novel evaluation metric to assess both overall translation accuracy and the correct parenthetical presentation of terms. Our findings indicate that sLMs did not consistently outperform NMT models, with fine-tuning proving more effective than few-shot prompting, particularly in models with continued pre-training in the target language. These insights contribute to the advancement of more reliable terminology translation methodologies.
- Abstract(参考訳): 本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
このアプローチを実現するために,我々は,大規模言語モデルとの協調的アプローチと知識蒸留を用いて,従来のニューラルネットワーク翻訳(NMT)モデルと小型大規模言語モデル(SLM)に応用した代表的TTデータセットを生成した。
さらに,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
以上の結果から,SLM は NMT モデルより常に優れておらず,特にターゲット言語での事前訓練が継続しているモデルでは,数発のプロンプトよりも微調整が効果的であることが示唆された。
これらの知見は、より信頼性の高い用語翻訳手法の発展に寄与する。
関連論文リスト
- Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Improving Neural Machine Translation by Multi-Knowledge Integration with
Prompting [36.24578487904221]
我々は,マルチ知識,複数種類の知識をNMTモデルに統合し,プロンプトによる性能向上に着目する。
文,用語/フレーズ,翻訳テンプレートなど,複数の種類の知識をNMTモデルに効果的に統合する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:55:00Z) - Domain Terminology Integration into Machine Translation: Leveraging
Large Language Models [3.178046741931973]
本稿では,WMT 2023 におけるドイツ語-英語(DE-EN),英語-チェコ語(EN-CS),中国語-英語(ZH-EN)言語対に対する提案手法について述べる。
この課題は、技術用語を正確に翻訳するシステムを開発するために参加者に挑戦することで機械翻訳(MT)を進めることを目的としている。
論文 参考訳(メタデータ) (2023-10-22T23:25:28Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Incorporating Terminology Constraints in Automatic Post-Editing [23.304864678067865]
語彙的に制約されたAPEに対する自己回帰モデルと非自己回帰モデルの両方を提示する。
提案手法により,95%の用語の保存が可能となり,英独ベンチマークの翻訳品質も向上する。
論文 参考訳(メタデータ) (2020-10-19T15:44:03Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。