論文の概要: Science Across Languages: Assessing LLM Multilingual Translation of Scientific Papers
- arxiv url: http://arxiv.org/abs/2502.17882v1
- Date: Tue, 25 Feb 2025 06:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:23.837384
- Title: Science Across Languages: Assessing LLM Multilingual Translation of Scientific Papers
- Title(参考訳): 学術論文におけるLLM多言語翻訳の評価
- Authors: Hannah Calzi Kleidermacher, James Zou,
- Abstract要約: 我々は、科学論文の翻訳に大規模言語モデル(LLM)を活用している。
我々は複数の科学分野の論文を28の言語に翻訳する。
ベンチマークの結果,平均性能は95.9%であった。
- 参考スコア(独自算出の注目度): 24.150250149027883
- License:
- Abstract: Scientific research is inherently global. However, the vast majority of academic journals are published exclusively in English, creating barriers for non-native-English-speaking researchers. In this study, we leverage large language models (LLMs) to translate published scientific articles while preserving their native JATS XML formatting, thereby developing a practical, automated approach for implementation by academic journals. Using our approach, we translate articles across multiple scientific disciplines into 28 languages. To evaluate translation accuracy, we introduce a novel question-and-answer (QA) benchmarking method, in which an LLM generates comprehension-based questions from the original text and then answers them based on the translated text. Our benchmark results show an average performance of 95.9%, showing that the key scientific details are accurately conveyed. In a user study, we translate the scientific papers of 15 researchers into their native languages, finding that the authors consistently found the translations to accurately capture the original information in their articles. Interestingly, a third of the authors found many technical terms "overtranslated," expressing a preference to keep terminology more familiar in English untranslated. Finally, we demonstrate how in-context learning techniques can be used to align translations with domain-specific preferences such as mitigating overtranslation, highlighting the adaptability and utility of LLM-driven scientific translation. The code and translated articles are available at https://hankleid.github.io/ProjectMundo.
- Abstract(参考訳): 科学研究は本質的にグローバルである。
しかし、ほとんどの学術雑誌は英語でのみ出版されており、英語以外の研究者にとって障壁となっている。
本研究では,大規模言語モデル(LLM)を用いて学術論文を翻訳し,JATSのXMLフォーマットを保存し,学術誌による実装のための実践的,自動的なアプローチを開発する。
このアプローチを用いて、複数の科学分野にまたがる記事を28の言語に翻訳する。
翻訳精度を評価するために,LLMが元のテキストから理解に基づく質問を生成し,翻訳されたテキストに基づいて回答する,新しいQAベンチマーク手法を提案する。
ベンチマークの結果は95.9%の平均的な性能を示し、重要な科学的詳細が正確に伝達されていることを示している。
本研究では,15人の研究者の学術論文を母国語に翻訳し,著者が論文中の元の情報を正確に把握する翻訳を一貫して発見することを発見した。
興味深いことに、著者の3分の1は、多くの技術的用語が「過剰に翻訳された」ことを発見し、英語の用語学をより親しみやすくすることを好んだ。
最後に,LLMによる科学的翻訳の適応性と有用性を強調し,翻訳を過剰翻訳の緩和などのドメイン固有の嗜好に合わせるために,文脈内学習技術がどのように利用できるかを実証する。
コードと翻訳された記事はhttps://hankleid.github.io/ProjectMundo.comで入手できる。
関連論文リスト
- I Can't Share Code, but I need Translation -- An Empirical Study on Code Translation through Federated LLM [3.9373541926236766]
本研究は、参加者が効率の良いコード翻訳のためのFedLLMを共同開発できることを実証する。
この結果から,FedLLMはコード翻訳に協調的なアプローチを提供し,将来的な研究の方向性となる可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-10T05:43:36Z) - Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Adaptive Machine Translation with Large Language Models [7.803471587734353]
実時間適応型機械翻訳を改善するために,テキスト内学習をいかに活用できるかを検討する。
英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対の実験を行った。
論文 参考訳(メタデータ) (2023-01-30T21:17:15Z) - Machine Translation for Accessible Multi-Language Text Analysis [1.5484595752241124]
英語への翻訳後に計算した英語学習尺度の精度が十分であることを示す。
これは、感情分析、トピック分析、単語の埋め込みという3つの主要な分析で、16以上の言語で示します。
論文 参考訳(メタデータ) (2023-01-20T04:11:38Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。