論文の概要: Inversely Learning Transferable Rewards via Abstracted States
- arxiv url: http://arxiv.org/abs/2501.01669v1
- Date: Fri, 03 Jan 2025 07:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:10:50.478108
- Title: Inversely Learning Transferable Rewards via Abstracted States
- Title(参考訳): 抽象状態を用いた逆学習
- Authors: Yikang Gui, Prashant Doshi,
- Abstract要約: 逆強化学習(IRL)は、行動データから離散領域と連続領域の両方において、基礎となる報酬を正確に学習する方向に大きく進歩している。
ロボットアプリケーションのコンテキストでは、ロボットをスクラッチからプログラミングすることなく、新しいタスクを含む処理ラインに統合するのに役立つ。
ドメインの2つ以上の異なるインスタンスにおける行動軌跡から抽象的な報酬関数を逆学習する手法を提案する。
- 参考スコア(独自算出の注目度): 4.5456862813416565
- License:
- Abstract: Inverse reinforcement learning (IRL) has progressed significantly toward accurately learning the underlying rewards in both discrete and continuous domains from behavior data. The next advance is to learn {\em intrinsic} preferences in ways that produce useful behavior in settings or tasks which are different but aligned with the observed ones. In the context of robotic applications, this helps integrate robots into processing lines involving new tasks (with shared intrinsic preferences) without programming from scratch. We introduce a method to inversely learn an abstract reward function from behavior trajectories in two or more differing instances of a domain. The abstract reward function is then used to learn task behavior in another separate instance of the domain. This step offers evidence of its transferability and validates its correctness. We evaluate the method on trajectories in tasks from multiple domains in OpenAI's Gym testbed and AssistiveGym and show that the learned abstract reward functions can successfully learn task behaviors in instances of the respective domains, which have not been seen previously.
- Abstract(参考訳): 逆強化学習(IRL)は、行動データから離散領域と連続領域の両方において、基礎となる報酬を正確に学習する方向に大きく進歩している。
次の進歩は、観察されたものとは異なる設定やタスクにおいて有用な振る舞いを生み出す方法を学ぶことである。
ロボットアプリケーションのコンテキストにおいて、これはロボットを(本質的な好みを共有した)新しいタスクを含む処理ラインに統合するのに役立つ。
本稿では,ドメインの2つ以上の異なるインスタンスにおける行動軌跡から,抽象的な報酬関数を逆学習する手法を提案する。
抽象報酬関数は、ドメインの別のインスタンスでタスクの振る舞いを学ぶために使用される。
このステップは、転送可能性の証拠を提供し、その正確性を検証する。
我々は,OpenAI の Gym testbed と AssistiveGym の複数ドメインからのタスクのトラジェクトリの手法を評価し,学習した抽象的報酬関数が,これまで見たことのない各ドメインのインスタンスにおいて,タスクの振る舞いを学習できることを示す。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Inducing Structure in Reward Learning by Learning Features [31.413656752926208]
本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から複雑な特徴を学習するアルゴリズムを紹介する。
当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。
論文 参考訳(メタデータ) (2022-01-18T16:02:29Z) - Reward Shaping with Dynamic Trajectory Aggregation [7.6146285961466]
ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
SARSA-RSは潜在的な機能を学び、それを取得する。
サブゴール系列を用いた軌道アグリゲーションを提案する。
論文 参考訳(メタデータ) (2021-04-13T13:07:48Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Pitfalls of learning a reward function online [28.2272248328398]
我々は、エージェントが報酬関数を学習し、同時にそれを最適化する連続的な(一生の)学習アプローチを考える。
これは、学習プロセスを一方向に意図的に操作するなど、いくつかの落とし穴が伴っている。
影響のないプロセスが自動的に制限不能であることを示し、可能環境の集合が十分にリッチであれば、その逆も真であることを示す。
論文 参考訳(メタデータ) (2020-04-28T16:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。