論文の概要: Learning Reward Machines through Preference Queries over Sequences
- arxiv url: http://arxiv.org/abs/2308.09301v1
- Date: Fri, 18 Aug 2023 04:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:35:41.621799
- Title: Learning Reward Machines through Preference Queries over Sequences
- Title(参考訳): シーケンスによる推論クエリによるリワードマシンの学習
- Authors: Eric Hsiung, Joydeep Biswas, Swarat Chaudhuri
- Abstract要約: 我々は、リターンマシンを好みから学習するための新しいアルゴリズムであるREMAPにコントリビュートする。
本研究は,REMAPの正当性と終了の証明に加えて,正当性を測定する実証的証拠を提示する。
- 参考スコア(独自算出の注目度): 19.478224060277775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward machines have shown great promise at capturing non-Markovian reward
functions for learning tasks that involve complex action sequencing. However,
no algorithm currently exists for learning reward machines with realistic weak
feedback in the form of preferences. We contribute REMAP, a novel algorithm for
learning reward machines from preferences, with correctness and termination
guarantees. REMAP introduces preference queries in place of membership queries
in the L* algorithm, and leverages a symbolic observation table along with
unification and constraint solving to narrow the hypothesis reward machine
search space. In addition to the proofs of correctness and termination for
REMAP, we present empirical evidence measuring correctness: how frequently the
resulting reward machine is isomorphic under a consistent yet inexact teacher,
and the regret between the ground truth and learned reward machines.
- Abstract(参考訳): 報酬マシンは、複雑なアクションシーケンシングを伴う学習タスクのための非マルコフ報酬関数を捉えることに大きな期待を示してきた。
しかし、現在、好みの形で現実的な弱いフィードバックを持つ報酬機を学習するアルゴリズムは存在しない。
報奨機を選好から学習するための新しいアルゴリズムであるremapを,正確性と終了保証とともに提供した。
REMAPは、L*アルゴリズムの会員クエリの代わりに好みクエリを導入し、一元化と制約解決とともにシンボル観測テーブルを活用し、仮説報酬マシン探索空間を狭める。
我々は,REMAPの正しさと終了の証明に加えて,結果の報奨機が一貫した教師の下でどの程度の頻度で同型であるか,基礎的真理と学習的報奨機との後悔を経験的証拠として提示する。
関連論文リスト
- Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov [2.9370710299422607]
本稿では,非マルコフ報酬関数をReward Machineを学習することで,等価なマルコフ関数にマッピングするフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
我々は,Officeworld Domainにおけるブラックボックス非マルコフ・リワード関数を学習することで,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2024-01-20T21:09:27Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Delayed Rewards Calibration via Reward Empirical Sufficiency [11.089718301262433]
分類の観点から着想を得た遅延報酬キャリブレーションパラダイムを提案する。
我々は、分布内の状態ベクトルがエージェントに信号を報奨する経験的な十分な分布を定義します。
純度訓練された分類器は、分布を取得し、校正された報酬を生成するように設計されている。
論文 参考訳(メタデータ) (2021-02-21T06:42:31Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Online Learning of Non-Markovian Reward Models [2.064612766965483]
エージェントが進化する環境の力学をモデル化する非マルコフ報酬決定プロセス(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。
我々はAngluinの$L*$アクティブ学習アルゴリズムを用いて、基礎となる非マルコフ報酬マシンを表すMealyマシンを学習する。
論文 参考訳(メタデータ) (2020-09-26T13:54:34Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。