Fugu-MT 論文翻訳(概要): Towards Large Language Model driven Reference-less Translation Evaluation for English and Indian Languages

論文の概要: Towards Large Language Model driven Reference-less Translation Evaluation for English and Indian Languages

arxiv url: http://arxiv.org/abs/2404.02512v1
Date: Wed, 3 Apr 2024 06:57:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 18:19:59.129455
Title: Towards Large Language Model driven Reference-less Translation Evaluation for English and Indian Languages
Title（参考訳）: 大規模言語モデルによる英語とインド語の参照なし翻訳評価に向けて
Authors: Vandan Mujadia, Pruthwik Mishra, Arafat Ahsan, Dipti Misra Sharma,
Abstract要約: 本研究では,英語とインド語における翻訳の質を評価するために,人間の直接評価を模倣する実験を行った。我々は,ゼロショット学習,インコンテキストのサンプル駆動学習,大規模言語モデルの微調整を行う翻訳評価タスクを構築し,100点中100点が完全翻訳であり,1点が不十分翻訳であることを示す。
参考スコア（独自算出の注目度）: 3.5068973868297117
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the primary focus on evaluating the effectiveness of large language models for automatic reference-less translation assessment, this work presents our experiments on mimicking human direct assessment to evaluate the quality of translations in English and Indian languages. We constructed a translation evaluation task where we performed zero-shot learning, in-context example-driven learning, and fine-tuning of large language models to provide a score out of 100, where 100 represents a perfect translation and 1 represents a poor translation. We compared the performance of our trained systems with existing methods such as COMET, BERT-Scorer, and LABSE, and found that the LLM-based evaluator (LLaMA-2-13B) achieves a comparable or higher overall correlation with human judgments for the considered Indian language pairs.
Abstract（参考訳）: 本研究は,大規模な言語モデルによる自動参照レス翻訳評価の有効性評価に主眼を置いて,人間の直接的評価を模倣し,英語とインドの翻訳の質を評価する実験を行った。我々は,ゼロショット学習,インコンテキストのサンプル駆動学習,大規模言語モデルの微調整を行う翻訳評価タスクを構築し,100点中100点が完全翻訳であり,1点が不十分翻訳であることを示す。トレーニングシステムの性能をCOMET,BERT-Scorer,LABSEなどの既存手法と比較したところ,LLMに基づく評価器 (LLaMA-2-13B) は,インド語対に対する人間の判断と同等あるいはそれ以上の相関性が得られることがわかった。

関連論文リスト

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks [37.79158418300249]
本稿では148カ国の2000以上の多言語(非英語)ベンチマークについて検討する。英語はこれらのベンチマークで著しく過剰に表現されている。ほとんどのベンチマークは翻訳よりもオリジナルの言語コンテンツに依存している。
論文参考訳（メタデータ） (2025-04-22T01:47:37Z)
Analysis of Indic Language Capabilities in LLMs [0.3599866690398789]
本報告では,テキスト入力による大規模言語モデル(LLM)の性能評価を行い,Indic言語を理解・生成する。ヒンディー語はモデルの中で最も広く表現されている言語である。モデルパフォーマンスは、上位5言語の話者数と大まかに相関するが、その後の評価は様々である。
論文参考訳（メタデータ） (2025-01-23T18:49:33Z)
HEALTH-PARIKSHA: Assessing RAG Models for Health Chatbots in Real-World Multilingual Settings [12.295782362244456]
本研究は、インド人患者から収集した実世界データに基づいて、24大言語モデル(LLM)を広範囲に評価する。モデルの性能は様々であり,命令調律されたIndicモデルは必ずしもIndic言語クエリでうまく機能しないことがわかった。
論文参考訳（メタデータ） (2024-10-17T15:29:57Z)
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-10-17T09:45:32Z)
How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文参考訳（メタデータ） (2024-07-03T15:39:40Z)
PARIKSHA: A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data [12.852628521840542]
我々は,90Kの人的評価と30KのLLMに基づく評価を行うことで,10言語にわたる30のモデルを評価した。 GPT-4o や Llama-3 70B のようなモデルは、ほとんどの Indic 言語で一貫して最適である。
論文参考訳（メタデータ） (2024-06-21T11:00:38Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文参考訳（メタデータ） (2024-01-12T13:23:21Z)
SurreyAI 2023 Submission for the Quality Estimation Shared Task [17.122657128702276]
本稿では,SurreyAIチームがWMT23のSentence-Level Direct Assessmentタスクに導入したアプローチについて述べる。提案手法はTransQuestフレームワーク上に構築され、様々なオートエンコーダで事前訓練された言語モデルを探索する。評価はスピアマンとピアソンの相関係数を用いて, 機械予測品質スコアと人的判断との関係を評価する。
論文参考訳（メタデータ） (2023-12-01T12:01:04Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。は、アメリカ大陸の10の原住民の言語である。 XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。 XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文参考訳（メタデータ） (2021-04-18T05:32:28Z)
A Set of Recommendations for Assessing Human-Machine Parity in Language Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。専門家による翻訳では誤りが著しく少なかった。
論文参考訳（メタデータ） (2020-04-03T17:49:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。