論文の概要: Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
- arxiv url: http://arxiv.org/abs/2605.00754v1
- Date: Fri, 01 May 2026 16:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.009929
- Title: Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
- Title(参考訳): Themis: フレキシブルな多言語スコーリングのためのロバストな多言語コードリワードモデルのトレーニング
- Authors: Indraneil Paul, Glavaš Glavas, Iryna Gurevych,
- Abstract要約: Themis-CodePreferenceは、これまでで最大のコード好みのオープンソースコレクションで、多言語コード報酬モデルのスイートであるThemis-RMのトレーニングに使用しています。
多様な嗜好に基づいてトレーニングを行う場合, 積極的なスケーリング傾向, 強い言語間移動を示す実験とアブリケーションを行った。
- 参考スコア(独自算出の注目度): 49.937275213222186
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reward models (RMs) have become an indispensable fixture of the language model (LM) post-training playbook, enabling policy alignment and test-time scaling. Research on the application of RMs in code generation, however, has been comparatively sparse, with existing work largely focusing on execution feedback. This choice constrains post-training to optimizing functional correctness over self-contained executable code. In this work, we examine the training and evaluation of multilingual, multi-criteria code RMs. To this end, we first compile Themis-CodeRewardBench, a benchmark to evaluate code RMs across five preference dimensions (i.e., criteria) and eight programming languages, on which we profile 50+ code, math, and general-purpose RMs. Observing the limited proficiency of current RMs beyond scoring for functional correctness, we develop Themis-CodePreference, the largest open-source collection of code preferences to date (more than 350k preference pairs), and use it to train Themis-RM, a suite of multilingual code reward models for flexible multi-criteria scoring, ranging in size from 600M to 32B parameters. Our experiments and ablations demonstrate positive scaling trends, strong cross-lingual transfer when training on diverse preferences, and the importance of multi-criteria training for reliable code reward modeling.
- Abstract(参考訳): Reward Model (RM) は、言語モデル(LM)のトレーニング後のプレイブックに必須のフィクスチャとなり、ポリシーアライメントとテストタイムスケーリングを可能にした。
しかし、コード生成におけるRMの応用に関する研究は比較的不十分であり、既存の作業は主に実行フィードバックに焦点を当てている。
この選択は、自己完結した実行可能コードに対する機能的正しさの最適化を後処理に制約する。
本研究では,多言語多基準RMの訓練と評価について検討する。
この目的のために、まずThemis-CodeRewardBenchをコンパイルし、50以上のコード、数学、汎用RMをプロファイルする5つの選好次元(基準)と8つのプログラミング言語のコードRMを評価するベンチマークを作成した。
機能的正しさのスコアを超えて、現在のRMの限られた習熟度を観察し、これまでで最大のコードの選好コレクション(350k以上の選好ペア)であるThemis-CodePreferenceを開発し、600Mから32Bのパラメータを含む柔軟な多重基準スコアリングのための多言語コード報酬モデルであるThemis-RMをトレーニングするために使用します。
実験と改善は、様々な好みのトレーニングにおいて、ポジティブなスケーリング傾向、強い言語間移動、信頼性のあるコード報酬モデリングにおけるマルチ基準トレーニングの重要性を示す。
関連論文リスト
- Improving Code Generation via Small Language Model-as-a-judge [14.067404766521607]
我々は、コード正当性判断として最先端のSLMをいくつか訓練し、正しい実装と間違った実装を区別する能力を評価する。
現代のSLMは,実行ベース情報を活用することなく,RanEFよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-12T13:07:36Z) - Code-enabled language models can outperform reasoning models on diverse tasks [86.29363856881399]
標準命令LMは, 微調整をせずに, 強力な推論器となりうることを示す。
これはCodeAdaptによって実現され、LMは多段階的なコード実行と自然言語推論をインターリーブする。
CodeAdaptは、平均8タスクで、3つのLMが対応するRMを上回ります。
論文 参考訳(メタデータ) (2025-10-23T18:04:03Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - The Struggles of LLMs in Cross-lingual Code Clone Detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations [25.50509874992198]
Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
論文 参考訳(メタデータ) (2023-06-07T01:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。