Fugu-MT 論文翻訳(概要): M-RewardBench: Evaluating Reward Models in Multilingual Settings

論文の概要: M-RewardBench: Evaluating Reward Models in Multilingual Settings

arxiv url: http://arxiv.org/abs/2410.15522v2
Date: Tue, 29 Oct 2024 03:28:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.165233
Title: M-RewardBench: Evaluating Reward Models in Multilingual Settings
Title（参考訳）: M-RewardBench:多言語設定における逆モデルの評価
Authors: Srishti Gureja, Lester James V. Miranda, Shayekh Bin Islam, Rishabh Maheshwary, Drishti Sharma, Gusti Winata, Nathan Lambert, Sebastian Ruder, Sara Hooker, Marzieh Fadaee,
Abstract要約: 我々は、M-RewardBenchというマルチリンガルRM評価ベンチマークを構築した。 M-RewardBenchは23の類型的に多様な言語に対する2.87kの好みのインスタンスで構成されている。 RMの性能が向上し,翻訳品質が向上したことを示す。
参考スコア（独自算出の注目度）: 33.44919953094607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward models (RMs) have driven the state-of-the-art performance of LLMs today by enabling the integration of human feedback into the language modeling process. However, RMs are primarily trained and evaluated in English, and their capabilities in multilingual settings remain largely understudied. In this work, we conduct a systematic evaluation of several reward models in multilingual settings. We first construct the first-of-its-kind multilingual RM evaluation benchmark, M-RewardBench, consisting of 2.87k preference instances for 23 typologically diverse languages, that tests the chat, safety, reasoning, and translation capabilities of RMs. We then rigorously evaluate a wide range of reward models on M-RewardBench, offering fresh insights into their performance across diverse languages. We identify a significant gap in RMs' performances between English and non-English languages and show that RM preferences can change substantially from one language to another. We also present several findings on how different multilingual aspects impact RM performance. Specifically, we show that the performance of RMs is improved with improved translation quality. Similarly, we demonstrate that the models exhibit better performance for high-resource languages. We release M-RewardBench dataset and the codebase in this study to facilitate a better understanding of RM evaluation in multilingual settings.
Abstract（参考訳）: リワードモデル(RM)は、人間のフィードバックを言語モデリングプロセスに統合可能にすることで、今日のLLMの最先端のパフォーマンスを推進してきた。しかし、RMは主に英語で訓練され、評価されており、多言語設定におけるその能力は、ほとんど検討されていない。本研究では,多言語設定における報酬モデルの体系的評価を行う。まず,第1種マルチリンガルRM評価ベンチマークであるM-RewardBenchを構築し, RMのチャット, 安全性, 推論, 翻訳能力をテストする23言語に対して2.87kの好みのインスタンスを作成した。次に、M-RewardBench上で広範囲の報酬モデルを評価し、様々な言語でそのパフォーマンスについて新たな洞察を提供する。我々は、英語と非英語におけるRMのパフォーマンスの重大なギャップを特定し、RMの好みが言語によって大きく変化することを示す。また,多言語的側面の違いがRM性能に与える影響について,いくつかの知見を提示する。具体的には,RMの性能が向上し,翻訳品質が向上したことを示す。同様に、我々はこれらのモデルが高速な言語に対してより良い性能を示すことを示した。我々はM-RewardBenchデータセットとコードベースをリリースし、マルチ言語設定におけるRM評価の理解を深める。

関連論文リスト

MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文参考訳（メタデータ） (2025-02-18T09:11:44Z)
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Cross-lingual Transfer of Reward Models in Multilingual Alignment [8.13893128694698]
人間のフィードバックによる強化学習(RLHF)は、正確な報酬モデル(RM)から大きく恩恵を受けることが示されている。近年の報酬モデリングスキームの研究は英語に傾き、多言語アライメントにおけるRLHFの適用性を制限している。様々な言語、主に英語から訓練されたRMの言語間移動について検討する。
論文参考訳（メタデータ） (2024-10-23T17:00:13Z)
Multilingual Prompts in LLM-Based Recommenders: Performance Across Languages [0.0]
この研究は、非英語のプロンプトがレコメンデーションパフォーマンスに与える影響を探求する。 ML1M、LastFM、Amazon-Beautyの3つの実世界のデータセットの評価は、非英語プロンプトの使用が一般的にパフォーマンスを低下させることを示した。多言語プロンプトによるリトレーニングにより、言語間のバランスの取れたパフォーマンスが向上したが、英語のパフォーマンスはわずかに低下した。
論文参考訳（メタデータ） (2024-09-11T20:31:42Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Multi-level Distillation of Semantic Knowledge for Pre-training Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文参考訳（メタデータ） (2022-11-02T15:23:13Z)
Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。 LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文参考訳（メタデータ） (2021-10-15T14:57:12Z)
Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning [33.34063636400519]
本研究の目的は、多言語言語モデル(ML-LM)を評価し、英語以外の常識推論を促進することである。我々は11言語で561kの文からなるミッキーコーパスを収集し、ML-LMの分析と改善に使用できる。言語に依存しない探索タスクであるMickey Probeを提案する。
論文参考訳（メタデータ） (2021-06-13T07:14:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。