論文の概要: MENLO: From Preferences to Proficiency - Evaluating and Modeling Native-like Quality Across 47 Languages
- arxiv url: http://arxiv.org/abs/2509.26601v1
- Date: Tue, 30 Sep 2025 17:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.647609
- Title: MENLO: From Preferences to Proficiency - Evaluating and Modeling Native-like Quality Across 47 Languages
- Title(参考訳): MENLO: 選好から習熟へ - 47言語にわたるネイティブライクな品質の評価とモデル化
- Authors: Chenxi Whitehouse, Sebastian Ruder, Tony Lin, Oksana Kurylo, Haruka Takagi, Janice Lam, Nicolò Busetto, Denise Diaz,
- Abstract要約: オーディエンスにインスパイアされたメカニズムに基づいた,ネイティブな応答品質の評価を運用するフレームワークであるMENLOを紹介する。
我々は,47種類の言語において,高いアノテータ間一致を伴う4つの品質次元をカバーする6,423個の人称アノテート・レスポンス・プライオリティ・ペアのデータセットを作成する。
- 参考スコア(独自算出の注目度): 18.278876042011383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring native-like quality of large language model (LLM) responses across many languages is challenging. To address this, we introduce MENLO, a framework that operationalizes the evaluation of native-like response quality based on audience design-inspired mechanisms. Using MENLO, we create a dataset of 6,423 human-annotated prompt-response preference pairs covering four quality dimensions with high inter-annotator agreement in 47 language varieties. Our evaluation reveals that zero-shot LLM judges benefit significantly from pairwise evaluation and our structured annotation rubrics, yet they still underperform human annotators on our dataset. We demonstrate substantial improvements through fine-tuning with reinforcement learning, reward shaping, and multi-task learning approaches. Additionally, we show that RL-trained judges can serve as generative reward models to enhance LLMs' multilingual proficiency, though discrepancies with human judgment remain. Our findings suggest promising directions for scalable multilingual evaluation and preference alignment. We release our dataset and evaluation framework to support further research in multilingual LLM evaluation.
- Abstract(参考訳): 多くの言語で大きな言語モデル(LLM)レスポンスのネイティブライクな品質を保証することは難しい。
この問題を解決するために,オーディエンス設計に着想を得たメカニズムに基づいた,ネイティブな応答品質の評価を運用するフレームワークであるMENLOを紹介した。
我々は,MENLOを用いて,47種類の言語で高いアノテータ間一致を持つ4つの品質次元をカバーする6,423人のアノテート・レスポンス・プライオリティ・ペアのデータセットを作成する。
我々の評価では、ゼロショットLCMの判定は、ペア評価と構造化アノテーションのルーブリックから大きな恩恵を受けるが、それでもデータセット上の人間のアノテータを過小評価している。
我々は、強化学習による微調整、報酬形成、マルチタスク学習アプローチによる大幅な改善を示す。
また,人間の判断と相違点は残るものの,LLを訓練した裁判官はLLMの多言語習熟度を高めるための生成的報酬モデルとして機能することを示す。
この結果から,スケーラブルな多言語評価と嗜好アライメントのための有望な方向が示唆された。
我々は,多言語LLM評価のさらなる研究を支援するために,データセットと評価フレームワークをリリースする。
関連論文リスト
- How Reliable is Multilingual LLM-as-a-Judge? [11.639184489330368]
25言語を含む5つの多種多様なタスクにおいて、異なるモデルファミリーから5つのモデルを評価する。
一貫性は言語によって大きく異なり、低リソース言語では特にパフォーマンスが劣っていることが分かりました。
実世界のアプリケーションにおける多言語判断の整合性を改善するアンサンブル戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:32:35Z) - M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。