論文の概要: Estonian WinoGrande Dataset: Comparative Analysis of LLM Performance on Human and Machine Translation
- arxiv url: http://arxiv.org/abs/2511.17290v1
- Date: Fri, 21 Nov 2025 15:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.067514
- Title: Estonian WinoGrande Dataset: Comparative Analysis of LLM Performance on Human and Machine Translation
- Title(参考訳): エストニアのWinoGrandeデータセット:人間と機械翻訳におけるLLM性能の比較分析
- Authors: Marii Ojastu, Hele-Andra Kuulmets, Aleksei Dorkin, Marika Borovikova, Dage Särg, Kairit Sirts,
- Abstract要約: 我々は、ウィノグランデテストセットのローカライズされ、文化的に適応したエストニア語翻訳を提示する。
我々は,人間翻訳ベンチマークを用いて,プロプライエタリモデルとオープンソースモデルの両方のパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 2.7297730504383892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a localized and culturally adapted Estonian translation of the test set from the widely used commonsense reasoning benchmark, WinoGrande. We detail the translation and adaptation process carried out by translation specialists and evaluate the performance of both proprietary and open source models on the human translated benchmark. Additionally, we explore the feasibility of achieving high-quality machine translation by incorporating insights from the manual translation process into the design of a detailed prompt. This prompt is specifically tailored to address both the linguistic characteristics of Estonian and the unique translation challenges posed by the WinoGrande dataset. Our findings show that model performance on the human translated Estonian dataset is slightly lower than on the original English test set, while performance on machine-translated data is notably worse. Additionally, our experiments indicate that prompt engineering offers limited improvement in translation quality or model accuracy, and highlight the importance of involving language specialists in dataset translation and adaptation to ensure reliable and interpretable evaluations of language competency and reasoning in large language models.
- Abstract(参考訳): 本稿では,広く使用されているコモンセンス推論ベンチマークであるWinoGrandeから,局所的かつ文化的に適応したエストニア語によるテストセットの翻訳について述べる。
本稿では,翻訳専門家が行った翻訳・適応プロセスについて詳述し,人間翻訳ベンチマークにおいて,プロプライエタリモデルとオープンソースモデルの両方の性能評価を行う。
さらに、手動翻訳プロセスからの洞察を詳細なプロンプトの設計に取り入れることで、高品質な機械翻訳の実現可能性についても検討する。
このプロンプトは、エストニア語の言語的特徴とウィノグランデデータセットによって引き起こされる固有の翻訳課題の両方に対処するために特別に調整されている。
その結果,翻訳されたエストニアのデータセットのモデル性能は,オリジナルの英語テストセットよりわずかに低いが,機械翻訳されたデータの性能は著しく劣っていることがわかった。
さらに,本実験は,翻訳品質やモデルの精度が限定的に向上することを示し,大規模言語モデルにおける言語能力と推論の信頼性と解釈性を保証するために,データセット翻訳と適応に言語スペシャリストが関与することの重要性を強調した。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Optimizing Machine Translation through Prompt Engineering: An
Investigation into ChatGPT's Customizability [0.0]
この研究は、ChatGPTのような大規模言語モデルに適切なプロンプトが組み込まれれば、柔軟な翻訳が可能になることを明らかにしている。
この研究は、特定の条件を満たす翻訳を生成するためにプロンプトを使用すると、翻訳品質の変化を精査する。
論文 参考訳(メタデータ) (2023-08-02T19:11:04Z) - Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。
また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文 参考訳(メタデータ) (2023-06-06T16:51:03Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Computer Assisted Translation with Neural Quality Estimation and
Automatic Post-Editing [18.192546537421673]
本稿では,機械翻訳出力の品質推定と自動編集のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のゴールは、誤り訂正の提案を提供することであり、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。
論文 参考訳(メタデータ) (2020-09-19T00:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。