論文の概要: One ruler to measure them all: Benchmarking multilingual long-context language models
- arxiv url: http://arxiv.org/abs/2503.01996v1
- Date: Mon, 03 Mar 2025 19:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:05.212020
- Title: One ruler to measure them all: Benchmarking multilingual long-context language models
- Title(参考訳): それらすべてを測定する1つの定規:多言語長文言語モデルのベンチマーク
- Authors: Yekyung Kim, Jenna Russell, Marzena Karpinska, Mohit Iyyer,
- Abstract要約: 我々は26言語にわたる長文言語モデルを評価するために設計された多言語ベンチマークONERULERを提案する。
英語は、長文タスク(26語中6位)における最高のパフォーマンス言語ではなく、ポーランド語が最上位言語として登場した。
異なる言語で命令とコンテキストが現れる言語間シナリオでは、命令言語によってパフォーマンスが最大20%変動する。
- 参考スコア(独自算出の注目度): 35.75388430206553
- License:
- Abstract: We present ONERULER, a multilingual benchmark designed to evaluate long-context language models across 26 languages. ONERULER adapts the English-only RULER benchmark (Hsieh et al., 2024) by including seven synthetic tasks that test both retrieval and aggregation, including new variations of the "needle-in-a-haystack" task that allow for the possibility of a nonexistent needle. We create ONERULER through a two-step process, first writing English instructions for each task and then collaborating with native speakers to translate them into 25 additional languages. Experiments with both open-weight and closed LLMs reveal a widening performance gap between low- and high-resource languages as context length increases from 8K to 128K tokens. Surprisingly, English is not the top-performing language on long-context tasks (ranked 6th out of 26), with Polish emerging as the top language. Our experiments also show that many LLMs (particularly OpenAI's o3-mini-high) incorrectly predict the absence of an answer, even in high-resource languages. Finally, in cross-lingual scenarios where instructions and context appear in different languages, performance can fluctuate by up to 20% depending on the instruction language. We hope the release of ONERULER will facilitate future research into improving multilingual and cross-lingual long-context training pipelines.
- Abstract(参考訳): 我々は26言語にわたる長文言語モデルを評価するために設計された多言語ベンチマークONERULERを提案する。
OnERULERは英語のみのRULERベンチマーク(Hsieh et al , 2024)に適応し、検索と集約の両方をテストする7つの合成タスクを含む。
OnERULERを2段階のプロセスで作成し、まずタスクごとに英語の命令を書き、その後ネイティブスピーカーと共同で25の言語に翻訳します。
オープンウェイトとクローズドLLMの両方の実験では、コンテキスト長が8Kから128Kに増加するにつれて、低リソース言語と高リソース言語のパフォーマンスギャップが拡大している。
驚くべきことに、英語は長文タスク(26語中6位)において最高のパフォーマンス言語ではなく、ポーランド語がトップ言語として登場している。
我々の実験は、特にOpenAIのo3-mini-highの)多くのLLMが、高リソース言語であっても、答えがないことを誤って予測していることも示しています。
最後に、異なる言語で命令とコンテキストが現れる言語横断シナリオでは、命令言語によってパフォーマンスが最大20%変動する。
我々は,ONERULERのリリースによって,多言語および多言語間の長文学習パイプラインの改善に向けた今後の研究が促進されることを願っている。
関連論文リスト
- CoCo-CoLa: Evaluating Language Adherence in Multilingual LLMs [1.2057938662974816]
大規模言語モデル(LLM)は、限られた並列データで訓練されているにもかかわらず、言語間能力を開発する。
多言語LLMにおける言語適応性を評価するための新しい指標であるCoCo-CoLaを紹介する。
論文 参考訳(メタデータ) (2025-02-18T03:03:53Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Revisiting non-English Text Simplification: A Unified Multilingual
Benchmark [14.891068432456262]
本稿では,12言語に170万以上の複雑な文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。
事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。
論文 参考訳(メタデータ) (2023-05-25T03:03:29Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。