Fugu-MT 論文翻訳(概要): Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey

論文の概要: Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey

arxiv url: http://arxiv.org/abs/2412.20367v2
Date: Thu, 02 Jan 2025 09:43:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-03 13:16:14.165855
Title: Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey
Title（参考訳）: コード生成における強化学習によるLLMの強化:調査
Authors: Junqiao Wang, Zeng Zhang, Yangfan He, Yuyang Song, Tianyu Shi, Yuchen Li, Hengyuan Xu, Kunyu Wu, Guangwu Qian, Qiuwu Chen, Lewei He,
Abstract要約: コード生成と最適化のための重要なテクニックとして強化学習(RL)が登場した。本稿では,コード最適化と生成におけるRLの適用について,系統的な調査を行った。
参考スコア（独自算出の注目度）: 7.7582469015328295
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid evolution of large language models (LLM), reinforcement learning (RL) has emerged as a pivotal technique for code generation and optimization in various domains. This paper presents a systematic survey of the application of RL in code optimization and generation, highlighting its role in enhancing compiler optimization, resource allocation, and the development of frameworks and tools. Subsequent sections first delve into the intricate processes of compiler optimization, where RL algorithms are leveraged to improve efficiency and resource utilization. The discussion then progresses to the function of RL in resource allocation, emphasizing register allocation and system optimization. We also explore the burgeoning role of frameworks and tools in code generation, examining how RL can be integrated to bolster their capabilities. This survey aims to serve as a comprehensive resource for researchers and practitioners interested in harnessing the power of RL to advance code generation and optimization techniques.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進化に伴い、様々な領域におけるコード生成と最適化の重要な手法として強化学習(RL)が出現している。本稿では、コード最適化と生成におけるRLの適用について体系的な調査を行い、コンパイラ最適化の強化、リソース割り当て、フレームワークやツールの開発におけるその役割を明らかにする。その後のセクションでは、RLアルゴリズムが効率と資源利用を改善するために利用される、コンパイラ最適化の複雑なプロセスについて調べる。この議論は、リソース割り当てにおけるRLの機能に進み、レジスタ割り当てとシステムの最適化を強調している。また、コード生成におけるフレームワークやツールの急成長する役割についても検討し、RLがそれらの機能を強化するためにどのように統合できるかを調べます。この調査は、RLのパワーを活用してコード生成と最適化技術を向上することに関心のある研究者や実践者のための総合的なリソースとして機能することを目的としている。

関連論文リスト

Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文参考訳（メタデータ） (2025-09-20T13:11:28Z)
A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文参考訳（メタデータ） (2025-09-10T17:59:43Z)
A Technical Survey of Reinforcement Learning Techniques for Large Language Models [33.38582292895673]
大規模言語モデル(LLM)の整合・拡張のための変換的アプローチとして強化学習(RL)が登場している。 RLHFはアライメントにおいて支配的であり、RLVRのような結果ベースのRLは段階的推論を著しく改善する。報酬のハッキング、計算コスト、スケーラブルなフィードバック収集といった永続的な課題は、継続的なイノベーションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-07-05T19:13:00Z)
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T06:41:07Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Reinforcement Learning Enhanced LLMs: A Survey [45.57586245741664]
我々はRL強化大言語モデル(LLM)に関する最新の知識の体系的なレビューを行う。具体的には、RLの基礎を詳述し、(2)人気のRL強化LLMを導入し、(3)広く使われている報酬モデルに基づくRL技術であるReinforcement Learning from Human Feedback(RLHF)とReinforcement Learning from AI Feedback(RLAIF)についてレビューする。
論文参考訳（メタデータ） (2024-12-05T16:10:42Z)
A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler [0.10923877073891444]
本稿では,MLIRコンパイラ研究の促進を目的とした,MLIRコンパイラの最初のRL環境について紹介する。また、より単純なアクション部分空間の積として作用空間の新たな定式化を提案し、より効率的かつ効率的な最適化を可能にした。
論文参考訳（メタデータ） (2024-09-17T10:49:45Z)
Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。 DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文参考訳（メタデータ） (2024-05-31T01:25:40Z)
Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods [18.771658054884693]
大規模言語モデル(LLM)は、マルチタスク学習、サンプル効率、高レベルのタスク計画といった側面において強化学習(RL)を強化するための有望な道として出現する。本稿では,情報処理装置,報酬設計装置,意思決定装置,ジェネレータの4つの役割を含む,RLにおけるLLMの機能を体系的に分類する構造的分類法を提案する。
論文参考訳（メタデータ） (2024-03-30T08:28:08Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A Reinforcement Learning Approach [11.11570399751075]
本研究は, 深層強化学習(DRL)の可能性を活用した新しい枠組みを提案する。 DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。
論文参考訳（メタデータ） (2024-02-24T23:25:35Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。 RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文参考訳（メタデータ） (2023-08-25T15:06:05Z)
Karolos: An Open-Source Reinforcement Learning Framework for Robot-Task Environments [0.3867363075280544]
強化学習(RL)研究において、シミュレーションはアルゴリズム間のベンチマークを可能にする。本稿では,ロボット応用のためのフレームワークであるKarolosを紹介する。コードはオープンソースでGitHubに公開されており、ロボット工学におけるRLアプリケーションの研究を促進することを目的としている。
論文参考訳（メタデータ） (2022-12-01T23:14:02Z)
FORLORN: A Framework for Comparing Offline Methods and Reinforcement Learning for Optimization of RAN Parameters [0.0]
本稿では,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。このフレームワークでは、ドメイン固有の知識を持たないRLエージェントが、静的シナリオにおけるオフライン最適化に適合するように、Radio Access Network(RAN)パラメータを効率的に調整する方法を学習できることを実証する。
論文参考訳（メタデータ） (2022-09-08T12:58:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。