論文の概要: When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2506.20544v1
- Date: Wed, 25 Jun 2025 15:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.820199
- Title: When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs
- Title(参考訳): 人生がサンプルを与えるとき:多言語LLMにおける推論計算のスケールアップのメリット
- Authors: Ammar Khairi, Daniel D'souza, Ye Shen, Julia Kreutzer, Sara Hooker,
- Abstract要約: 本稿では,多言語およびマルチタスク推論シナリオに特化して適応した新しいサンプリングと選択手法を提案する。
サンプリングと選択の併用により,m-Arena-v2.0プロンプト上での8Bモデルの勝利率の平均+6.8ジャンプを実現した。
この結果から,未表現言語の性能向上を民主化することを目的とした,推論時間計算における言語とタスク認識のアプローチの必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 10.406096751902899
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large language models (LLMs) have shifted focus toward scaling inference-time compute, improving performance without retraining the model. A common approach is to sample multiple outputs in parallel, and select one of these as the final output. However, work to date has focused on English and a handful of domains such as math and code. In contrast, we are most interested in techniques that generalize across open-ended tasks, formally verifiable tasks, and across languages. In this work, we study how to robustly scale inference-time compute for open-ended generative tasks in a multilingual, multi-task setting. Our findings show that both sampling strategy based on temperature variation and selection strategy must be adapted to account for diverse domains and varied language settings. We evaluate existing selection methods, revealing that strategies effective in English often fail to generalize across languages. We propose novel sampling and selection strategies specifically adapted for multilingual and multi-task inference scenarios, and show they yield notable gains across languages and tasks. In particular, our combined sampling and selection methods lead to an average +6.8 jump in win-rates for our 8B models on m-ArenaHard-v2.0 prompts, against proprietary models such as Gemini. At larger scale, Command-A (111B model) equipped with our methods, shows +9.0 improvement in win-rates on the same benchmark with just five samples against single-sample decoding, a substantial increase at minimal cost. Our results underscore the need for language- and task-aware approaches to inference-time compute, aiming to democratize performance improvements in underrepresented languages.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論時間計算のスケーリングに焦点を移し、モデルを再訓練することなく性能を改善している。
一般的なアプローチは、複数の出力を並列にサンプリングし、これらのうちの1つを最終的な出力として選択することである。
しかし、これまでの研究は英語と数学やコードといった少数の分野に焦点を当ててきた。
対照的に、私たちは、オープンエンドタスク、正式に検証可能なタスク、および言語をまたがるテクニックに最も興味を持っています。
本研究では,多言語マルチタスク環境下でのオープンな生成タスクに対して,推論時間計算を堅牢にスケールする方法について検討する。
本研究は, 温度変化に基づくサンプリング戦略と選択戦略の両方を, 多様なドメインと多様な言語設定を考慮に入れなければならないことを示す。
我々は既存の選択手法を評価し、英語で有効な戦略が言語全体にわたって一般化できない場合が多いことを明らかにした。
本稿では,多言語およびマルチタスク推論シナリオに特化して適応する新しいサンプリングと選択手法を提案する。
特に、サンプリングと選択の組み合わせによって、Geminiのようなプロプライエタリなモデルに対して、m-ArenaHard-v2.0プロンプト上の8Bモデルのウィンレートが平均+6.8上昇する。
大規模では、我々の手法を搭載したCommand-A (111Bモデル)が、単サンプル復号化に対するサンプルが5つしかなく、同じベンチマークで勝利率を+9.0改善し、最小コストで大幅に向上した。
この結果から,未表現言語の性能向上を民主化することを目的とした,推論時間計算における言語とタスク認識のアプローチの必要性が浮き彫りになった。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient
Optimization in Few-Shot Cross-Lingual Transfer [2.7213511121305465]
本研究では,ソースデータとターゲットデータの両方を学習する1ステップ混合学習手法を提案する。
我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。
提案手法は,全タスクの最先端性能と目標適応性能を高いマージンで向上させる。
論文 参考訳(メタデータ) (2022-04-29T04:05:02Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。