論文の概要: Mungojerrie: Reinforcement Learning of Linear-Time Objectives
- arxiv url: http://arxiv.org/abs/2106.09161v2
- Date: Fri, 18 Jun 2021 00:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 09:09:27.945898
- Title: Mungojerrie: Reinforcement Learning of Linear-Time Objectives
- Title(参考訳): Mungojerrie: 線形時間目的の強化学習
- Authors: Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh
Trivedi, and Dominik Wojtczak
- Abstract要約: 強化学習は、システムの事前の知識なしにコントローラを合成する。
Mungojerrieは、有限モデル上の$omega$-regularの目的に対する報酬スキームをテストするためのツールである。
- 参考スコア(独自算出の注目度): 6.041931892652636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning synthesizes controllers without prior knowledge of the
system. At each timestep, a reward is given. The controllers optimize the
discounted sum of these rewards. Applying this class of algorithms requires
designing a reward scheme, which is typically done manually. The designer must
ensure that their intent is accurately captured. This may not be trivial, and
is prone to error. An alternative to this manual programming, akin to
programming directly in assembly, is to specify the objective in a formal
language and have it "compiled" to a reward scheme. Mungojerrie
(https://plv.colorado.edu/mungojerrie/) is a tool for testing reward schemes
for $\omega$-regular objectives on finite models. The tool contains
reinforcement learning algorithms and a probabilistic model checker.
Mungojerrie supports models specified in PRISM and $\omega$-automata specified
in HOA.
- Abstract(参考訳): 強化学習は、システムの事前知識なしでコントローラを合成する。
各タイムステップに報酬が与えられる。
コントローラは、これらの報酬の割引金額を最適化します。
この種のアルゴリズムを適用するには、通常手動で行う報酬体系を設計する必要がある。
設計者は意図を正確に捉えなければならない。
これは自明ではないかもしれないし、エラーを起こしやすい。
この手動プログラミングの代替として、アセンブリで直接プログラミングするのと同様に、形式言語で目的を指定し、報酬スキームに"コンパイル"することが挙げられる。
Mungojerrie (https://plv.colorado.edu/mungojerrie/)は、有限モデル上の$\omega$-regularの目的に対する報酬スキームをテストするツールである。
このツールは強化学習アルゴリズムと確率論的モデルチェッカーを含む。
MungojerrieはPRISMで指定されたモデルとHOAで指定された$\omega$-automataをサポートする。
関連論文リスト
- Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - Efficient Controlled Language Generation with Low-Rank Autoregressive Reward Models [13.38174941551702]
我々は、タスク固有の報酬モデルからスコアを用いて言語モデルから生成を制御するために、報酬拡張復号(RAD)アプローチを再検討する。
RADは、報酬行列を表現する際に高い柔軟性をサポートするように設計されており、復号時の計算コストが高くなることを示す。
そこで本研究では,高速かつ効率的な誘導復号化を可能にする報奨モデルの簡易かつ効率的な低ランクパラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:11:03Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Reward Shaping for Reinforcement Learning with Omega-Regular Objectives [0.0]
我々は、モデルフリー強化学習に優れたMDPオートマトンを利用する。
この翻訳の欠点は、報酬が平均的に非常に遅いことである。
この問題を克服する新たな報酬形成アプローチを考案する。
論文 参考訳(メタデータ) (2020-01-16T18:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。