論文の概要: mR3: Multilingual Rubric-Agnostic Reward Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.01146v1
- Date: Wed, 01 Oct 2025 17:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.693846
- Title: mR3: Multilingual Rubric-Agnostic Reward Reasoning Models
- Title(参考訳): mR3:多言語ルーブリック-非依存リワード推論モデル
- Authors: David Anugraha, Shou-Yi Hung, Zilu Tang, Annie En-Shiun Lee, Derry Tanti Wijaya, Genta Indra Winata,
- Abstract要約: 我々は,72言語で訓練された,多言語・ルックスに依存しない報酬推論モデルであるmR3を紹介する。
本稿では、高品質の報酬モデルを構築するための効果的な戦略とデータソースを特定するための訓練のためのデータとカリキュラムの選択について包括的に研究する。
提案手法は,多言語報酬モデルベンチマークにおける最先端のパフォーマンスを達成し,より大規模なモデルを上回るものである。
- 参考スコア(独自算出の注目度): 16.953894896444403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation using Large Language Model (LLM) judges has been widely adopted in English and shown to be effective for automatic evaluation. However, their performance does not generalize well to non-English settings, and it remains unclear what constitutes effective multilingual training for such judges. In this paper, we introduce mR3, a massively multilingual, rubric-agnostic reward reasoning model trained on 72 languages, achieving the broadest language coverage in reward modeling to date. We present a comprehensive study of data and curriculum selection for training to identify effective strategies and data sources for building high-quality reward models, including the integration of target-language reasoning datasets. Our approach attains state-of-the-art performance on multilingual reward model benchmarks, surpassing much larger models (i.e., GPT-OSS-120B) while being up to 9x smaller, and its effectiveness is further confirmed through extensive ablation studies. Our models, data, and code are available as open source at https://github.com/rubricreward/mr3.
- Abstract(参考訳): 英語ではLarge Language Model (LLM) を用いた評価が広く採用されており, 自動評価に有効であることが示されている。
しかし、その性能は英語以外の設定によく当てはまらないため、そのような判断に対して効果的な多言語訓練を構成するかは定かではない。
本稿では,72言語で訓練された膨大な多言語・ルーリックに依存しない報酬推論モデルであるmR3を紹介する。
本稿では、目標言語推論データセットの統合を含む、高品質な報酬モデルを構築するための効果的な戦略とデータソースを特定するための訓練のためのデータとカリキュラムの選択に関する総合的研究について述べる。
提案手法は,多言語報酬モデルベンチマークにおいて,最大9倍の精度で,はるかに大きなモデル(GPT-OSS-120B)を上回り,その有効性を確認した。
私たちのモデル、データ、コードはhttps://github.com/rubricreward/mr3.comでオープンソースとして公開されています。
関連論文リスト
- Aligning Multilingual Reasoning with Verifiable Semantics from a High-Resource Expert Model [13.788758077632432]
本稿では,セマンティック検証リワードを用いたPivot-based Reinforcement Learningを紹介する。
このフレームワークは、ターゲット言語における人間の注釈付きデータの必要性を回避し、多言語推論を強化する。
提案手法は,英語と他言語のパフォーマンスギャップを著しく狭めることを示す。
論文 参考訳(メタデータ) (2025-09-29T22:03:11Z) - Relic: Enhancing Reward Model Generalization for Low-Resource Indic Languages with Few-Shot Examples [58.55904048776596]
ほとんどのオープンソースの多言語報酬モデルは、主にオープンソース言語の好みデータセットに基づいて訓練されている。
低リソースIndic言語における報酬モデリングのための新しい文脈内学習フレームワークであるRELICを提案する。
論文 参考訳(メタデータ) (2025-06-19T17:56:16Z) - A Practitioner's Guide to Building ASR Models for Low-Resource Languages: A Case Study on Scottish Gaelic [9.380879437204277]
低リソース言語のためのASRシステムの開発における効果的なアプローチは、既存の多言語のエンドツーエンドモデルを微調整することである。
本稿では,ハイブリッドHMMと自己教師付きモデルを組み合わせることで,限られたトレーニングデータによる大幅な性能向上が期待できることを示す。
We benchmark our approach on Scottish Gaelic, achieve WER reductions 32% relative of our best fine-tuned Whisper model。
論文 参考訳(メタデータ) (2025-06-05T11:52:08Z) - M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。