論文の概要: Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment
- arxiv url: http://arxiv.org/abs/2508.04865v1
- Date: Wed, 06 Aug 2025 20:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.638954
- Title: Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment
- Title(参考訳): Agnostics: 普遍的な学習環境による強化を通じて、あらゆるプログラミング言語でコードを学ぶ
- Authors: Aleksander Boruch-Gruszecki, Yangtian Zi, Zixuan Wu, Tejas Oberoi, Carolyn Jane Anderson, Joydeep Biswas, Arjun Guha,
- Abstract要約: Agnosticsは、言語毎のエンジニアリングを排除する、言語に依存しないポストトレーニングパイプラインである。
キーとなるアイデアは、外部から観測可能な振る舞いだけでコードを判断することであり、単一の検証者が任意の言語で記述されたソリューションをテストすることができる。
私たちは、言語に依存しないトレーニングデータセット(Ag-MBPP-X、Ag-Codeforces-X、Ag-LiveCodeBench-X)、トレーニングコード、使用可能な設定をリリースします。
- 参考スコア(独自算出の注目度): 44.47221244109926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) already excel at writing code in high-resource languages such as Python and JavaScript, yet stumble on low-resource languages that remain essential to science and engineering. Besides the obvious shortage of pre-training data, post-training itself is a bottleneck: every new language seems to require new datasets, test harnesses, and reinforcement-learning (RL) infrastructure. We introduce Agnostics, a language-agnostic post-training pipeline that eliminates this per-language engineering. The key idea is to judge code solely by its externally observable behavior, so a single verifier can test solutions written in any language. Concretely, we (i) use an LLM to rewrite existing unit-test datasets into an I/O format, (ii) supply a short configuration that tells the verifier how to compile and run a target language, and (iii) apply reinforcement learning with verifiable rewards (RLVR) in a robust code execution environment. Applied to five low-resource languages--Lua, Julia, R, OCaml, and Fortran--Agnostics (1) improves Qwen-3 4B to performance that rivals other 16B-70B open-weight models; (2) scales cleanly to larger and diverse model families (Qwen-3 8B, DeepSeek Coder 6.7B Instruct, Phi 4 Mini); and (3) for ${\le} 16$B parameter models, sets new state-of-the-art pass@1 results on MultiPL-E and a new multi-language version LiveCodeBench that we introduce. We will release the language-agnostic training datasets (Ag-MBPP-X, Ag-Codeforces-X, Ag-LiveCodeBench-X), training code, and ready-to-use configurations, making RL post-training in any programming language as simple as editing a short YAML file.
- Abstract(参考訳): 大規模言語モデル(LLM)は、PythonやJavaScriptのような高リソースの言語でコードを記述するのに優れていますが、科学やエンジニアリングに不可欠な低リソースの言語に悩まされています。
すべての新しい言語は、新しいデータセット、テストハーネス、強化学習(RL)インフラストラクチャを必要としているようだ。
私たちはAgnosticsを紹介します。Agnosticsは言語に依存しないポストトレーニングパイプラインで、言語ごとのエンジニアリングを不要にします。
キーとなる考え方は、外部から観測可能な振る舞いだけでコードを判断することであり、単一の検証者が任意の言語で記述されたソリューションをテストすることができる。
具体的には
i) LLMを使用して、既存のユニットテストデータセットをI/Oフォーマットに書き換える。
(ii) 対象言語をコンパイルし実行する方法を検証者に伝える短い設定を提供し、
三 堅牢なコード実行環境において、検証可能な報酬(RLVR)による強化学習を適用すること。
Lua, Julia, R, OCaml, Fortran-Agnostics (1) は Qwen-3 4B を他の 16B-70B のオープンウェイトモデルに匹敵するパフォーマンスに改善する; (2) より大きく多様なモデルファミリ (Qwen-3 8B, DeepSeek Coder 6.7B Instruct, Phi 4 Mini) にクリーンにスケールする; (3) ${\le} 16$Bパラメータモデルに対して、MultiPL-E と新しいマルチ言語バージョンの LiveCodeBench を新たに設定する。
私たちは、言語に依存しないトレーニングデータセット(Ag-MBPP-X、Ag-Codeforces-X、Ag-LiveCodeBench-X)、トレーニングコード、使用可能な設定をリリースします。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment [30.93798042712827]
トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。
ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。
実験により,ランダー事前学習がLM学習効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-12-31T16:08:15Z) - LangSAMP: Language-Script Aware Multilingual Pretraining [48.16511046793275]
我々はLangSAMP(Language-Script Aware Multilingual Pretraining)を提案する。
LangSAMPには言語とスクリプトの埋め込みが組み込まれており、表現学習が強化されている。
我々は500以上の言語をカバーする多言語コーパス上のXLM-Rの継続事前学習にLangSAMPを適用した。
論文 参考訳(メタデータ) (2024-09-26T18:29:10Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models [31.231720803637085]
言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。
オリジナルのモデルのトークン化子の語彙範囲が限定されているため、新しい言語の表現が不十分になる。
制約付きWord2Vec (CW2V) は言語間埋め込みを必要としない。
論文 参考訳(メタデータ) (2024-07-08T11:38:49Z) - DocCGen: Document-based Controlled Code Generation [33.19206322891497]
DocCGenは、構造化コード言語のためのNL-to-Code生成タスクを2段階のプロセスに分解することで、豊富な知識を活用できるフレームワークである。
実験の結果,DocCGenは6つの評価指標すべてで,言語モデルのサイズを常に改善していることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:34:57Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs [2.9242435458494445]
本稿では,半合成データを用いた低リソース言語上でのコードLLMの性能向上に有効な手法を提案する。
このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。
論文 参考訳(メタデータ) (2023-08-19T03:19:01Z) - COMEX: A Tool for Generating Customized Source Code Representations [7.151800146054561]
COMEXは、研究者と開発者が複数のコードビューを作成し、組み合わせることを可能にするフレームワークである。
プロシージャ内スニペットとプロシージャ間スニペットの両方を使用して、メソッドレベルのスニペットとプログラムレベルのスニペットの両方を分析することができる。
これは40以上の言語をサポートする、広く使われているインクリメンタル分析ツールであるtree-sitter上に構築されている。
論文 参考訳(メタデータ) (2023-07-10T16:46:34Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。