論文の概要: Toward Information Theoretic Active Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.00381v1
- Date: Tue, 31 Dec 2024 10:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:40.443128
- Title: Toward Information Theoretic Active Inverse Reinforcement Learning
- Title(参考訳): 情報理論的能動逆強化学習に向けて
- Authors: Ondrej Bajgar, Sid William Gould, Rohan Narayan Langford Mitta, Jonathon Liu, Oliver Newcombe, Jack Golden,
- Abstract要約: 逆強化学習(IRL)は、実証から未知の報酬を推測するための有望なアプローチを提供する。
Active IRLはこの課題に対処し、人間のデモンストレーションにおいて最も有益なシナリオを戦略的に選択する。
本稿では,情報理論の獲得関数を提案し,効率的な近似手法を提案し,グリッドワールド実験を通じてその性能を示す。
- 参考スコア(独自算出の注目度): 0.21990652930491852
- License:
- Abstract: As AI systems become increasingly autonomous, aligning their decision-making to human preferences is essential. In domains like autonomous driving or robotics, it is impossible to write down the reward function representing these preferences by hand. Inverse reinforcement learning (IRL) offers a promising approach to infer the unknown reward from demonstrations. However, obtaining human demonstrations can be costly. Active IRL addresses this challenge by strategically selecting the most informative scenarios for human demonstration, reducing the amount of required human effort. Where most prior work allowed querying the human for an action at one state at a time, we motivate and analyse scenarios where we collect longer trajectories. We provide an information-theoretic acquisition function, propose an efficient approximation scheme, and illustrate its performance through a set of gridworld experiments as groundwork for future work expanding to more general settings.
- Abstract(参考訳): AIシステムがますます自律的になるにつれて、意思決定を人間の好みに合わせることが不可欠である。
自律運転やロボット工学のような分野では、これらの好みを表す報酬関数を手書きするのは不可能である。
逆強化学習(IRL)は、実証から未知の報酬を推測するための有望なアプローチを提供する。
しかし、人間のデモを得るにはコストがかかる。
Active IRLはこの課題に対処するため、人間によるデモンストレーションの最も有益なシナリオを戦略的に選択し、必要な人的努力の量を削減している。
これまでのほとんどの作業では、一度に1つの状態で人間にアクションを問い合わせることを可能にしていましたが、より長い軌跡を収集するシナリオを動機付け、分析します。
我々は,情報理論の獲得機能を提供し,効率的な近似手法を提案し,グリッドワールド実験のセットを通じて,今後の作業の基盤として,より一般的な設定にまで拡張する性能を示す。
関連論文リスト
- Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Learning Reward Functions from Diverse Sources of Human Feedback:
Optimally Integrating Demonstrations and Preferences [14.683631546064932]
本稿では,複数の情報ソースを統合するためのフレームワークを提案する。
特に,まずユーザデモを利用して報酬関数の信念を初期化するアルゴリズムを提案する。
提案手法は, 理論的に最適であるユーザフレンドリな嗜好クエリを生成するという, 人間のデータ提供能力に寄与する。
論文 参考訳(メタデータ) (2020-06-24T22:45:27Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。