論文の概要: Test-driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.07904v2
- Date: Sat, 15 Nov 2025 04:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.096297
- Title: Test-driven Reinforcement Learning
- Title(参考訳): テスト駆動強化学習
- Authors: Zhao Yu, Xiuping Wu, Liangjun Ke,
- Abstract要約: 本稿では,テスト駆動型強化学習(TdRL)フレームワークを提案する。
TdRLでは、単一の報酬関数ではなくタスク目的を表すために複数のテスト関数が使用される。
政策訓練において,TdRLは手作り報酬法に適合し,性能が向上することを示す。
- 参考スコア(独自算出の注目度): 1.1142354615369274
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning (RL) has been recognized as a powerful tool for robot control tasks. RL typically employs reward functions to define task objectives and guide agent learning. However, since the reward function serves the dual purpose of defining the optimal goal and guiding learning, it is challenging to design the reward function manually, which often results in a suboptimal task representation. To tackle the reward design challenge in RL, inspired by the satisficing theory, we propose a Test-driven Reinforcement Learning (TdRL) framework. In the TdRL framework, multiple test functions are used to represent the task objective rather than a single reward function. Test functions can be categorized as pass-fail tests and indicative tests, each dedicated to defining the optimal objective and guiding the learning process, respectively, thereby making defining tasks easier. Building upon such a task definition, we first prove that if a trajectory return function assigns higher returns to trajectories closer to the optimal trajectory set, maximum entropy policy optimization based on this return function will yield a policy that is closer to the optimal policy set. Then, we introduce a lexicographic heuristic approach to compare the relative distance relationship between trajectories and the optimal trajectory set for learning the trajectory return function. Furthermore, we develop an algorithm implementation of TdRL. Experimental results on the DeepMind Control Suite benchmark demonstrate that TdRL matches or outperforms handcrafted reward methods in policy training, with greater design simplicity and inherent support for multi-objective optimization. We argue that TdRL offers a novel perspective for representing task objectives, which could be helpful in addressing the reward design challenges in RL applications.
- Abstract(参考訳): 強化学習(RL)はロボット制御タスクの強力なツールとして認識されている。
RLは通常、タスクの目的を定義し、エージェント学習をガイドするために報酬関数を使用する。
しかし,報奨関数は最適目標の定義と学習指導という2つの目的を果たすため,報酬関数を手動で設計することは困難であり,多くの場合,準最適タスク表現に繋がる。
満足度理論に触発されたRLの報酬設計課題に対処するため,テスト駆動強化学習(TdRL)フレームワークを提案する。
TdRLフレームワークでは、複数のテスト関数が単一の報酬関数ではなくタスクの目的を表すために使用される。
テスト関数は、それぞれ最適な目標を定義し、学習プロセスを導くことに特化したパスフェイルテストと指示テストに分類することができ、それによってタスク定義がより簡単になる。
このようなタスク定義に基づいて、トラジェクタリターン関数が、最適軌道集合に近いトラジェクタリにより高いリターンを割り当てる場合、このリターン関数に基づく最大エントロピーポリシー最適化は、最適方針集合に近いポリシーをもたらすことを最初に証明する。
そこで我々は,軌跡の相対的距離関係を軌跡の回帰関数を学習するための最適軌跡集合と比較するための語彙的ヒューリスティック手法を提案する。
さらに,TdRLのアルゴリズム実装を開発する。
DeepMind Control Suiteベンチマークの実験結果は、TdRLがポリシートレーニングにおいて、より設計の単純さと多目的最適化の固有のサポートにより、手作りの報酬手法と一致または性能を向上することを示した。
我々は、TdRLがタスクの目的を表現するための新しい視点を提供しており、RLアプリケーションにおける報酬設計の課題に対処するのに役立つと論じる。
関連論文リスト
- ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。
学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。