Fugu-MT 論文翻訳(概要): Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov

論文の概要: Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov

arxiv url: http://arxiv.org/abs/2401.11325v3
Date: Fri, 16 Aug 2024 16:18:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 20:45:34.231731
Title: Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov
Title（参考訳）: 隠れたトリガーを検出する:非マルコフ逆関数をマルコフにマッピングする
Authors: Gregory Hyde, Eugene Santos Jr,
Abstract要約: 本稿では,非マルコフ報酬関数を等価なマルコフ関数に変換するためのフレームワークを提案する。 Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。私たちは、Officeworldドメインでブラックボックス、非マルコフ報酬関数を学習することで、我々のアプローチを実証的に検証する。
参考スコア（独自算出の注目度）: 2.486161976966064
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many Reinforcement Learning algorithms assume a Markov reward function to guarantee optimality. However, not all reward functions are Markov. This paper proposes a framework for mapping non-Markov reward functions into equivalent Markov ones by learning specialized reward automata, Reward Machines. Unlike the general practice of learning Reward Machines, we do not require a set of high-level propositional symbols from which to learn. Rather, we learn hidden triggers, directly from data, that construct them. We demonstrate the importance of learning Reward Machines over their Deterministic Finite-State Automata counterparts given their ability to model reward dependencies. We formalize this distinction in our learning objective. Our mapping process is constructed as an Integer Linear Programming problem. We prove that our mappings form a suitable proxy for maximizing reward expectations. We empirically validate our approach by learning black-box, non-Markov reward functions in the Officeworld domain. Additionally, we demonstrate the effectiveness of learning reward dependencies in a new domain, Breakfastworld.
Abstract（参考訳）: 多くの強化学習アルゴリズムは最適性を保証するためにマルコフ報酬関数を仮定する。しかし、すべての報酬関数がマルコフであるわけではない。本稿では,非マルコフ報酬関数を等価なマルコフ報酬関数にマッピングするフレームワークを提案する。 Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。むしろ、データから直接隠れたトリガーを学び、それらを構築します。我々は、報酬依存をモデル化する能力から、決定論的有限状態オートマタよりも、リワードマシンを学習することの重要性を実証する。私たちはこの区別を学習目的として定式化する。我々のマッピングプロセスは整数線形計画問題として構築されている。我々は、写像が報酬期待を最大化するための適切なプロキシとなることを証明した。私たちは、Officeworldドメインでブラックボックス、非マルコフ報酬関数を学習することで、我々のアプローチを実証的に検証する。さらに、新しいドメインであるBreakfastworldにおける報酬依存性の学習の有効性を示す。

関連論文リスト

Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文参考訳（メタデータ） (2024-07-15T17:59:52Z)
STARC: A General Framework For Quantifying Differences Between Reward Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文参考訳（メタデータ） (2023-09-26T20:31:19Z)
Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文参考訳（メタデータ） (2022-04-29T16:53:00Z)
On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文参考訳（メタデータ） (2021-11-01T12:12:16Z)
Learning Probabilistic Reward Machines from Non-Markovian Stochastic Reward Processes [8.800797834097764]
非マルコフ報酬の表現として確率的報酬機(PRM)を導入する。本稿では,決定プロセスからPRMを学習するアルゴリズムを提案するとともに,所定の意思決定方針のPRM表現を学習するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-09T19:00:39Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)
Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文参考訳（メタデータ） (2020-10-06T04:38:16Z)
Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文参考訳（メタデータ） (2020-10-06T00:10:16Z)
Online Learning of Non-Markovian Reward Models [2.064612766965483]
エージェントが進化する環境の力学をモデル化する非マルコフ報酬決定プロセス(MDP)を考える。 MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。我々はAngluinの$L*$アクティブ学習アルゴリズムを用いて、基礎となる非マルコフ報酬マシンを表すMealyマシンを学習する。
論文参考訳（メタデータ） (2020-09-26T13:54:34Z)
Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。 MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文参考訳（メタデータ） (2020-01-25T10:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。