論文の概要: Lost in the Source Language: How Large Language Models Evaluate the
Quality of Machine Translation
- arxiv url: http://arxiv.org/abs/2401.06568v1
- Date: Fri, 12 Jan 2024 13:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:21:06.247043
- Title: Lost in the Source Language: How Large Language Models Evaluate the
Quality of Machine Translation
- Title(参考訳): ソース言語における紛失: 大規模言語モデルが機械翻訳の品質を評価する方法
- Authors: Xu Huang, Zhirui Zhang, Xiang Geng, Yichao Du, Jiajun Chen, Shujian
Huang
- Abstract要約: 大規模言語モデル (LLM) は機械翻訳評価タスクにおいて顕著な成果を上げている。
本研究は,LLMが翻訳評価においてソース情報と参照情報をどのように活用するかを検討することを目的とする。
- 参考スコア(独自算出の注目度): 68.43666295024714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable results in the machine
translation evaluation task, yet there remains a gap in knowledge regarding how
they utilize the provided data to conduct evaluations. This study aims to
explore how LLMs leverage source and reference information in evaluating
translations, with the ultimate goal of better understanding the working
mechanism of LLMs. To this end, we design the controlled experiments across
various input modes and model types, and employ both coarse-grained and
fine-grained prompts to discern the utility of source versus reference
information. Surprisingly, we find that reference information significantly
enhances the evaluation accuracy, while source information sometimes is
counterproductive, indicating a lack of cross-lingual capability when using
LLMs to evaluate translations. We further conduct a meta-evaluation for
translation error detection of LLMs, observing a similar phenomenon. These
findings also suggest a potential research direction for LLMs that fully
exploits the cross-lingual capability of LLMs to achieve better performance in
machine translation evaluation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は機械翻訳評価タスクにおいて顕著な成果を上げてきたが、提供されたデータを用いて評価を行う方法については知識のギャップが残っている。
本研究の目的は,LLMの作業メカニズムをよりよく理解することを目的とした翻訳評価において,LLMがソース情報や参照情報をどのように活用するかを検討することである。
この目的のために,様々な入力モードとモデルタイプにわたる制御実験をデザインし,粗粒度と細粒度の両方を用いてソース情報と参照情報の有用性を識別する。
意外なことに、参照情報が評価精度を大幅に向上させるのに対して、ソース情報は時として非生産的であり、LLMを用いて翻訳を評価する場合の言語横断能力の欠如が示唆される。
さらに,LLMの翻訳誤り検出のためのメタ評価を行い,同様の現象を観察する。
また, 機械翻訳評価タスクにおいて, LLMの言語間能力を完全に活用し, 性能向上を図っている。
関連論文リスト
- Improving LLM-based Machine Translation with Systematic Self-Correction [27.679218053257685]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
しかし、人間による慎重な評価は、LLMが生成した翻訳には、まだ複数の誤りが含まれていることを明らかにしている。
これらの知見に触発され,系統的なLLMに基づく自己修正翻訳フレームワークであるTERを導入する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource
Unsupervised Neural Machine Translation [32.76853731410492]
低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面している。
本稿では,大言語モデルのLRL翻訳能力を高めるために,確率駆動型メタグラフプロンプタ(POMP)を提案する。
本実験は3つのLRLの翻訳品質を著しく改善した。
論文 参考訳(メタデータ) (2024-01-11T00:03:36Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Human-in-the-loop Machine Translation with Large Language Model [44.86068991765771]
大規模言語モデル (LLM) は、文脈内学習機構と創発的能力によって大きな注目を集めている。
そこで本研究では,LLMを誘導し,リビジョン命令付きで出力をカスタマイズするHuman-in-the-loopパイプラインを提案する。
GPT-3.5-turbo APIを用いて、ドイツ語翻訳のための5つのドメイン固有ベンチマークにおいて、提案したパイプラインを評価する。
論文 参考訳(メタデータ) (2023-10-13T07:30:27Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [108.37242622164709]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - El Departamento de Nosotros: How Machine Translated Corpora Affects
Language Models in MRC Tasks [0.12183405753834563]
大規模言語モデル(LM)の事前学習には大量のテキストコーパスが必要である。
下流自然言語処理タスクの微調整に直接翻訳コーパスを適用する際の注意点について検討する。
後処理に伴う慎重なキュレーションにより,性能が向上し,LM全体の堅牢性が向上することを示す。
論文 参考訳(メタデータ) (2020-07-03T22:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。