論文の概要: Reward Engineering for Reinforcement Learning in Software Tasks
- arxiv url: http://arxiv.org/abs/2601.19100v1
- Date: Tue, 27 Jan 2026 02:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 14:03:24.488297
- Title: Reward Engineering for Reinforcement Learning in Software Tasks
- Title(参考訳): ソフトウェアタスクにおける強化学習のためのリワードエンジニアリング
- Authors: Md Rayhanul Masud, Azmine Toushik Wasi, Salman Rahman, Md Rizwan Parvez,
- Abstract要約: 主な課題は、ソフトウェアに意味のある報酬信号をどのように設計するかである。
多くのRL問題において、報酬は明確な数である。ソフトウェアでは、これはしばしば不可能である。
ソフトウェアタスクにおけるRLに対する報奨工学の最初の体系的かつ包括的なレビューを提供する。
- 参考スコア(独自算出の注目度): 11.749189921825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is increasingly used for code-centric tasks. These tasks include code generation, summarization, understanding, repair, testing, and optimization. This trend is growing faster with large language models and autonomous agents. A key challenge is how to design reward signals that make sense for software. In many RL problems, the reward is a clear number. In software, this is often not possible. The goal is rarely a single numeric objective. Instead, rewards are usually proxies. Common proxies check if the code compiles, passes tests, or satisfies quality metrics. Many reward designs have been proposed for code-related tasks. However, the work is scattered across areas and papers. There is no single survey that brings these approaches together and shows the full landscape of reward design for RL in software. In this survey, we provide the first systematic and comprehensive review of reward engineering for RL in software tasks. We focus on existing methods and techniques. We structure the literature along three complementary dimensions, summarizing the reward-design choices within each. We conclude with challenges and recommendations in the reward design space for SE tasks.
- Abstract(参考訳): 強化学習は、コード中心のタスクにますます使われています。
これらのタスクには、コード生成、要約、理解、修復、テスト、最適化が含まれる。
この傾向は、大規模言語モデルと自律エージェントによって急速に成長している。
重要な課題は、ソフトウェアに意味のある報酬信号をどのように設計するかである。
多くのRL問題において、報酬は明確な数である。
ソフトウェアでは、これはしばしば不可能です。
目標は単一の数値的な目的ではない。
報酬は通常、プロキシである。
一般的なプロキシは、コードがコンパイルされるか、テストに合格するか、品質指標を満たすかをチェックする。
コードに関連するタスクに対して多くの報酬設計が提案されている。
しかし、その作品は地域や新聞に散らばっている。
これらのアプローチをまとめて、ソフトウェアにおけるRLに対する報酬設計の全体像を示す調査は、ひとつもない。
本調査では,ソフトウェアタスクにおけるRLに対する報奨工学の体系的および包括的レビューを行う。
既存の手法と技法に重点を置いている。
我々は、文学を3つの相補的な次元に沿って構成し、それぞれの報酬-設計選択を要約する。
SEタスクの報酬設計領域における課題と推奨事項を結論付けます。
関連論文リスト
- ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。
提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - DrS: Learning Reusable Dense Rewards for Multi-Stage Tasks [26.730889757506915]
我々は,多段階タスクにおける再利用可能な高密度報酬を学習するための新しいアプローチであるDrS(Dense reward Learning from Stages)を提案する。
タスクのステージ構造を活用することで、DrSはスパース報酬やデモから高品質の高密度報酬を学ぶ。
1000以上のタスク変異を持つ3つの物理的ロボット操作タスクファミリーの実験は、学習した報酬を目に見えないタスクで再利用できることを実証している。
論文 参考訳(メタデータ) (2024-04-25T17:28:33Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Explainable AI for Pre-Trained Code Models: What Do They Learn? When
They Do Not Work? [4.573310303307945]
下流タスクの一連のソフトウェアエンジニアリング上のコードのための,最近の2つの大規模言語モデル (LLM) について検討する。
CodeBERTとGraphCodeBERTは、これらのタスクで何を学ぶか(ソースコードトークンタイプに関して、最も注意を払っている)を特定します。
モデルが期待通りに機能しない場合の一般的なパターンをいくつか示し、推奨する。
論文 参考訳(メタデータ) (2022-11-23T10:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。