論文の概要: M-RewardBench: Evaluating Reward Models in Multilingual Settings
- arxiv url: http://arxiv.org/abs/2410.15522v2
- Date: Tue, 29 Oct 2024 03:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:12.555702
- Title: M-RewardBench: Evaluating Reward Models in Multilingual Settings
- Title(参考訳): M-RewardBench:多言語設定における逆モデルの評価
- Authors: Srishti Gureja, Lester James V. Miranda, Shayekh Bin Islam, Rishabh Maheshwary, Drishti Sharma, Gusti Winata, Nathan Lambert, Sebastian Ruder, Sara Hooker, Marzieh Fadaee,
- Abstract要約: 我々は、M-RewardBenchというマルチリンガルRM評価ベンチマークを構築した。
M-RewardBenchは23の類型的に多様な言語に対する2.87kの好みのインスタンスで構成されている。
RMの性能が向上し,翻訳品質が向上したことを示す。
- 参考スコア(独自算出の注目度): 33.44919953094607
- License:
- Abstract: Reward models (RMs) have driven the state-of-the-art performance of LLMs today by enabling the integration of human feedback into the language modeling process. However, RMs are primarily trained and evaluated in English, and their capabilities in multilingual settings remain largely understudied. In this work, we conduct a systematic evaluation of several reward models in multilingual settings. We first construct the first-of-its-kind multilingual RM evaluation benchmark, M-RewardBench, consisting of 2.87k preference instances for 23 typologically diverse languages, that tests the chat, safety, reasoning, and translation capabilities of RMs. We then rigorously evaluate a wide range of reward models on M-RewardBench, offering fresh insights into their performance across diverse languages. We identify a significant gap in RMs' performances between English and non-English languages and show that RM preferences can change substantially from one language to another. We also present several findings on how different multilingual aspects impact RM performance. Specifically, we show that the performance of RMs is improved with improved translation quality. Similarly, we demonstrate that the models exhibit better performance for high-resource languages. We release M-RewardBench dataset and the codebase in this study to facilitate a better understanding of RM evaluation in multilingual settings.
- Abstract(参考訳): リワードモデル(RM)は、人間のフィードバックを言語モデリングプロセスに統合可能にすることで、今日のLLMの最先端のパフォーマンスを推進してきた。
しかし、RMは主に英語で訓練され、評価されており、多言語設定におけるその能力は、ほとんど検討されていない。
本研究では,多言語設定における報酬モデルの体系的評価を行う。
まず,第1種マルチリンガルRM評価ベンチマークであるM-RewardBenchを構築し, RMのチャット, 安全性, 推論, 翻訳能力をテストする23言語に対して2.87kの好みのインスタンスを作成した。
次に、M-RewardBench上で広範囲の報酬モデルを評価し、様々な言語でそのパフォーマンスについて新たな洞察を提供する。
我々は、英語と非英語におけるRMのパフォーマンスの重大なギャップを特定し、RMの好みが言語によって大きく変化することを示す。
また,多言語的側面の違いがRM性能に与える影響について,いくつかの知見を提示する。
具体的には,RMの性能が向上し,翻訳品質が向上したことを示す。
同様に、我々はこれらのモデルが高速な言語に対してより良い性能を示すことを示した。
我々はM-RewardBenchデータセットとコードベースをリリースし、マルチ言語設定におけるRM評価の理解を深める。
関連論文リスト
- Cross-lingual Transfer of Reward Models in Multilingual Alignment [8.13893128694698]
人間のフィードバックによる強化学習(RLHF)は、正確な報酬モデル(RM)から大きく恩恵を受けることが示されている。
近年の報酬モデリングスキームの研究は英語に傾き、多言語アライメントにおけるRLHFの適用性を制限している。
様々な言語、主に英語から訓練されたRMの言語間移動について検討する。
論文 参考訳(メタデータ) (2024-10-23T17:00:13Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Multi-level Distillation of Semantic Knowledge for Pre-training
Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。
我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。
我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-02T15:23:13Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Common Sense Beyond English: Evaluating and Improving Multilingual
Language Models for Commonsense Reasoning [33.34063636400519]
本研究の目的は、多言語言語モデル(ML-LM)を評価し、英語以外の常識推論を促進することである。
我々は11言語で561kの文からなるミッキーコーパスを収集し、ML-LMの分析と改善に使用できる。
言語に依存しない探索タスクであるMickey Probeを提案する。
論文 参考訳(メタデータ) (2021-06-13T07:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。