論文の概要: MaXIFE: Multilingual and Cross-lingual Instruction Following Evaluation
- arxiv url: http://arxiv.org/abs/2506.01776v2
- Date: Tue, 03 Jun 2025 02:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.50496
- Title: MaXIFE: Multilingual and Cross-lingual Instruction Following Evaluation
- Title(参考訳): MaXIFE:多言語・多言語間教育の評価
- Authors: Yile Liu, Ziwei Ma, Xiu Jiang, Jinglu Hu, Jing Chang, Liang Li,
- Abstract要約: MaXIFEは、23言語にわたる命令追従能力を評価するために設計された総合的な評価ベンチマークである。
多言語命令追従評価のための標準化されたツールを提供することで、MaXIFEは自然言語処理の研究と開発を進めることを目指している。
- 参考スコア(独自算出の注目度): 7.343467302769559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid adoption of large language models (LLMs) in natural language processing, the ability to follow instructions has emerged as a key metric for evaluating their practical utility. However, existing evaluation methods often focus on single-language scenarios, overlooking the challenges and differences present in multilingual and cross-lingual contexts. To address this gap, we introduce MaXIFE: a comprehensive evaluation benchmark designed to assess instruction-following capabilities across 23 different languages with 1667 verifiable instruction tasks. MaXIFE integrates both Rule-Based Evaluation and Model-Based Evaluation, ensuring a balance of efficiency and accuracy. We applied MaXIFE to evaluate several leading commercial LLMs, establishing baseline results for future comparisons. By providing a standardized tool for multilingual instruction-following evaluation, MaXIFE aims to advance research and development in natural language processing.
- Abstract(参考訳): 自然言語処理における大規模言語モデル(LLM)の急速な採用により、その実用性を評価する重要な指標として、命令に従う能力が出現した。
しかし、既存の評価手法は、多言語と言語横断のコンテキストに存在する課題や違いを見越して、単一の言語シナリオに焦点を当てることが多い。
このギャップに対処するために,23言語にまたがる命令追従能力を1667個の検証可能な命令タスクで評価するための総合評価ベンチマークMaXIFEを紹介する。
MaXIFEはルールベース評価とモデルベース評価を統合し、効率と精度のバランスを確保する。
そこで我々は,MaXIFEを商業用LLMの評価に応用し,今後の比較のためのベースライン結果を確立した。
多言語命令追従評価のための標準化されたツールを提供することで、MaXIFEは自然言語処理の研究と開発を進めることを目指している。
関連論文リスト
- MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - M-IFEval: Multilingual Instruction-Following Evaluation [2.624902795082451]
文献からのインストラクション追従評価(IFEval)ベンチマークは、客観的基準を用いてこれを行う。
英語の命令のみを含み、他の言語でのLLMを評価する能力を制限する。
本稿では,M-IFEval(Multilingual Instruction Following Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-07T06:27:04Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.524375463656369]
言語アクセプタビリティの多言語評価 -- MELA -- 10言語を対象とする46Kのサンプルを用いて、言語アクセプタビリティに関する最も大きなベンチマークを提示する。
多言語解釈可能性の追求において, 微調整XLM-Rを用いた探索実験を行った。
言語間移動実験は、受容可能性判定における伝達が非自明であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。