論文の概要: Marco-Bench-MIF: On Multilingual Instruction-Following Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2507.11882v1
- Date: Wed, 16 Jul 2025 03:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.215538
- Title: Marco-Bench-MIF: On Multilingual Instruction-Following Capability of Large Language Models
- Title(参考訳): Marco-Bench-MIF:大規模言語モデルの多言語指導-フォロー機能について
- Authors: Bo Zeng, Chenyang Lyu, Sinuo Liu, Mingyan Zeng, Minghao Wu, Xuanfan Ni, Tianqi Shi, Yu Zhao, Yefeng Liu, Chenyu Zhu, Ruizhe Li, Jiahui Geng, Qing Li, Yu Tong, Longyue Wang, Weihua Luo, Kaifu Zhang,
- Abstract要約: Marco-Bench-MIF は IFEval のローカライズ版で,ローカライズレベルが異なる30言語を対象としている。
我々のベンチマークは、言語制約(例えば、中国語の資本化要件の変更)と文化基準に対処する。
本分析では,キーワードの整合性保持や言語間のコンポジション制約の順守など,多言語学習における課題を明らかにする。
- 参考スコア(独自算出の注目度): 37.37334110940692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following capability has become a major ability to be evaluated for Large Language Models (LLMs). However, existing datasets, such as IFEval, are either predominantly monolingual and centered on English or simply machine translated to other languages, limiting their applicability in multilingual contexts. In this paper, we present an carefully-curated extension of IFEval to a localized multilingual version named Marco-Bench-MIF, covering 30 languages with varying levels of localization. Our benchmark addresses linguistic constraints (e.g., modifying capitalization requirements for Chinese) and cultural references (e.g., substituting region-specific company names in prompts) via a hybrid pipeline combining translation with verification. Through comprehensive evaluation of 20+ LLMs on our Marco-Bench-MIF, we found that: (1) 25-35% accuracy gap between high/low-resource languages, (2) model scales largely impact performance by 45-60% yet persists script-specific challenges, and (3) machine-translated data underestimates accuracy by7-22% versus localized data. Our analysis identifies challenges in multilingual instruction following, including keyword consistency preservation and compositional constraint adherence across languages. Our Marco-Bench-MIF is available at https://github.com/AIDC-AI/Marco-Bench-MIF.
- Abstract(参考訳): 命令追従能力は、Large Language Models (LLMs) で評価される主要な能力となっている。
しかし、IFEvalのような既存のデータセットは、主に単言語であり、英語に中心を置いているか、あるいは単に他の言語に機械翻訳されたものである。
本稿では, IFEval を局所化多言語版である Marco-Bench-MIF に慎重に拡張した。
本ベンチマークでは,翻訳と検証を組み合わせたハイブリッドパイプラインを用いて,言語制約(中国語の資本化要件の変更など)と文化基準(地域固有の企業名をプロンプトで置き換えるなど)に対処する。
その結果,(1)ハイ・ロー・ソース言語間の25~35%の精度差,(2)モデルスケールの45~60%はスクリプト固有の課題を継続するが,(3)機械翻訳データの精度を7~22%過小評価する,という結果が得られた。
本分析では,キーワードの整合性保持や言語間のコンポジション制約の順守など,多言語学習における課題を明らかにする。
Marco-Bench-MIFはhttps://github.com/AIDC-AI/Marco-Bench-MIFで利用可能です。
関連論文リスト
- RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages [3.7678366606419345]
RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
論文 参考訳(メタデータ) (2025-07-08T13:37:25Z) - Multi-lingual Functional Evaluation for Large Language Models [4.18267450389965]
我々は多言語機能ベンチマーク(CL-GSM)とCL-IFEval(CL-IFEval)を作成する。
いくつかの静的な多言語ベンチマークは、機能性能を他のベンチマークよりもはるかによく捉えている。
特定の言語(アラビア語、英語など)は、評価において最も順調に機能している。
論文 参考訳(メタデータ) (2025-06-25T19:32:31Z) - MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [16.21019515431378]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。