論文の概要: Improving LLM Abilities in Idiomatic Translation
- arxiv url: http://arxiv.org/abs/2407.03518v4
- Date: Thu, 23 Jan 2025 04:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:07.957563
- Title: Improving LLM Abilities in Idiomatic Translation
- Title(参考訳): 慣用翻訳におけるLLM能力の向上
- Authors: Sundesh Donthi, Maximilian Spencer, Om Patel, Joon Doh, Eid Rodan, Kevin Zhu, Sean O'Brien,
- Abstract要約: NLLBやGPTのような言語モデル(LLM)では、イディオムの翻訳は依然として難しい課題である。
我々のゴールは、慣用的な言語のLLM処理を改善することで、翻訳の忠実度を高めることである。
文化的なニュアンスを維持し、翻訳されたテキストが意図と感情の共鳴を維持することを保証するため、これは大きな社会的影響を持つ。
- 参考スコア(独自算出の注目度): 2.8692611791027893
- License:
- Abstract: For large language models (LLMs) like NLLB and GPT, translating idioms remains a challenge. Our goal is to enhance translation fidelity by improving LLM processing of idiomatic language while preserving the original linguistic style. This has a significant social impact, as it preserves cultural nuances and ensures translated texts retain their intent and emotional resonance, fostering better cross-cultural communication. Previous work has utilized knowledge bases like IdiomKB by providing the LLM with the meaning of an idiom to use in translation. Although this method yielded better results than a direct translation, it is still limited in its ability to preserve idiomatic writing style across languages. In this research, we expand upon the knowledge base to find corresponding idioms in the target language. Our research performs translations using two methods: The first method employs the SentenceTransformers model to semantically generate cosine similarity scores between the meanings of the original and target language idioms, selecting the best idiom (Cosine Similarity method). The second method uses an LLM to find a corresponding idiom in the target language for use in the translation (LLM-generated idiom method). As a baseline, we performed a direct translation without providing additional information. Human evaluations on the English -> Chinese, and Chinese -> English show the Cosine Similarity Lookup method out-performed others in all GPT4o translations. To further build upon IdiomKB, we developed a low-resource Urdu dataset containing Urdu idioms and their translations. Despite dataset limitations, the Cosine Similarity Lookup method shows promise, potentially overcoming language barriers and enabling the exploration of diverse literary works in Chinese and Urdu.(LoResLM @ COLING Preprint)
- Abstract(参考訳): NLLBやGPTのような大きな言語モデル(LLM)では、イディオムの翻訳は依然として困難である。
我々のゴールは、本来の言語スタイルを保ちながら、慣用的な言語のLLM処理を改善することで、翻訳の忠実性を高めることである。
これは、文化的なニュアンスを維持し、翻訳されたテキストがその意図と感情的共鳴を維持し、より優れた文化的なコミュニケーションを育むことを保証するため、大きな社会的影響を持つ。
これまでの研究は、翻訳に使用する慣用句の意味をLLMに提供することで、IdiomKBのような知識ベースを利用してきた。
この手法は直接翻訳よりも優れた結果を得たが、言語間で慣用的な書体を維持する能力は依然として限られている。
本研究では,対象言語に対応するイディオムを見つけるために,知識ベースを拡大する。
本研究は,2つの手法を用いて翻訳を行う。第1の方法はSentence Transformersモデルを用いて,原語と対象言語のイディオムの意味のコサイン類似度スコアを意味的に生成し,最適なイディオムを選択する(コサイン類似度法)。
第2の方法は、LLM生成イディオム法(LLM生成イディオム法)において、対象言語で対応するイディオムを見つけるためにLLMを使用する。
ベースラインとして、追加情報を提供しずに直接翻訳を行った。
英語・中国語・中国語の人的評価は,すべてのGPT4o翻訳において,コサイン類似性検索法が他より優れていたことを示している。
IdiomKBのさらなる構築のために、Urduイディオムとそれらの翻訳を含む低リソースなUrduデータセットを開発した。
データセットの制限にもかかわらず、Cosine similarity Lookupメソッドは、将来性を示し、言語障壁を克服し、中国語とウルドゥー語における多様な文学作品の探索を可能にする。
(LoResLM @ Coling Preprint)
関連論文リスト
- Language Models and Cycle Consistency for Self-Reflective Machine Translation [1.79487674052027]
我々は、ソース言語Aからターゲット言語Bへの複数の翻訳候補を生成し、その後、これらの候補を元の言語Aに翻訳する。
トークンレベルの精度や精度などの指標を用いて、原文と裏文の周期一貫性を評価することにより、言語Bの翻訳品質を暗黙的に推定する。
各原文に対して、翻訳候補を、原文と最適なサイクル整合性で同定し、最終回答とする。
論文 参考訳(メタデータ) (2024-11-05T04:01:41Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Paying More Attention to Source Context: Mitigating Unfaithful Translations from Large Language Model [28.288949710191158]
大規模言語モデル(LLM)は、印象的な多言語機械翻訳能力を示した。
エンコーダ-デコーダスタイルのモデルとは異なり、デコーダのみのLLMはソースとターゲットのコンテキストの間に明確なアライメントを欠いている。
我々はLLMに対して、ソースとターゲットの両方の観点から、ソースコンテキストにもっと注意を払うよう推奨する。
論文 参考訳(メタデータ) (2024-06-11T07:49:04Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。