論文の概要: Reward Shaping for Reinforcement Learning with Omega-Regular Objectives
- arxiv url: http://arxiv.org/abs/2001.05977v1
- Date: Thu, 16 Jan 2020 18:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:56:36.289285
- Title: Reward Shaping for Reinforcement Learning with Omega-Regular Objectives
- Title(参考訳): オメガレギュラー目標を用いた強化学習のための報酬シェーピング
- Authors: E. M. Hahn, M. Perez, S. Schewe, F. Somenzi, A. Trivedi, D. Wojtczak
- Abstract要約: 我々は、モデルフリー強化学習に優れたMDPオートマトンを利用する。
この翻訳の欠点は、報酬が平均的に非常に遅いことである。
この問題を克服する新たな報酬形成アプローチを考案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, successful approaches have been made to exploit good-for-MDPs
automata (B\"uchi automata with a restricted form of nondeterminism) for model
free reinforcement learning, a class of automata that subsumes good for games
automata and the most widespread class of limit deterministic automata. The
foundation of using these B\"uchi automata is that the B\"uchi condition can,
for good-for-MDP automata, be translated to reachability.
The drawback of this translation is that the rewards are, on average, reaped
very late, which requires long episodes during the learning process. We devise
a new reward shaping approach that overcomes this issue. We show that the
resulting model is equivalent to a discounted payoff objective with a biased
discount that simplifies and improves on prior work in this direction.
- Abstract(参考訳): 近年、mdpsオートマトン(b\"uchi automata with a restricted form of non determinism)をモデルフリー強化学習(model free reinforcement learning)に活用する試みが成功している。
これらのB\"uchiautoaの使用の基礎は、B\"uchi"条件が良いMDPオートマトンに対してリーチビリティに変換可能であることである。
この翻訳の欠点は、報酬が平均的に非常に遅れており、学習過程において長いエピソードを必要とすることである。
我々は、この問題を克服する新しい報酬形成アプローチを考案する。
得られたモデルが,この方向の先行作業の簡易化と改善を目的とした偏り値引きによる割引対象値と等価であることを示す。
関連論文リスト
- Learning Quantitative Automata Modulo Theories [17.33092604696224]
本稿では,学習者が帰納的推論によって有効なオートマトンを推論する,能動的学習アルゴリズムQUINTICを提案する。
本評価では, 累積, 減算, 積, 量的オートマトンを学習するために, 有理理論を利用する。
論文 参考訳(メタデータ) (2024-11-15T21:51:14Z) - Aligning Large Language Models via Self-Steering Optimization [78.42826116686435]
本稿では,高品質な選好信号を自律的に生成するアルゴリズムであるSelf-Steering Optimization(SSO$)を紹介する。
SSO$は、選択された応答と拒否された応答の間に一貫したギャップを確保することで、信号の精度を維持する。
我々は、Qwen2とLlama3.1という2つの基礎モデルを用いて、$SSO$の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Language Model Alignment with Elastic Reset [8.503863369800191]
一般的に使用されるテストメトリクスは、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定するには不十分である、と私たちは主張する。
我々は,トレーニング目標を明示的に変更することなく,ドリフトを少なくして高い報酬を達成する新しいアルゴリズムであるElastic Resetを提案する。
我々は、Elastic Resetを用いた微調整言語モデルが、小さなスケールのピボット変換ベンチマークで最先端のパフォーマンスをもたらすことを実証した。
論文 参考訳(メタデータ) (2023-12-06T22:53:34Z) - Alternating Good-for-MDP Automata [4.429642479975602]
良質MDP(GFM)B"uchiautoaを用いて、悪質MDP(GFM)オートマトンを修復できることを示す。
非決定論的ラビンやB'uchiオートマトンへの翻訳は、ターゲットオートマトンをMDPの良さを必要とせずとも、指数的なコストがかかる。
意外な答えは、MDPプロパティを交代オートマトンに拡張する際には、はるかに少なめに支払わなければならないということです。
論文 参考訳(メタデータ) (2022-05-06T14:01:47Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。