論文の概要: Reward Compatibility: A Framework for Inverse RL
- arxiv url: http://arxiv.org/abs/2501.07996v1
- Date: Tue, 14 Jan 2025 10:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:44.735533
- Title: Reward Compatibility: A Framework for Inverse RL
- Title(参考訳): Reward Compatibility: 逆RLのためのフレームワーク
- Authors: Filippo Lazzati, Mirco Mutti, Alberto Metelli,
- Abstract要約: 本稿では,報酬相反のレンズによる逆強化学習(IRL)の理論的研究について述べる。
報酬は、その報酬で計算された専門家のポリシーのパフォーマンスを、その報酬のために最適なパフォーマンスに近づけることと、より互換性がある。
我々は、最適および準最適専門家のデモンストレーション、オンラインとオフラインの両方のデータ収集など、さまざまな設定でIRLの問題を解析する。
- 参考スコア(独自算出の注目度): 7.41458156390382
- License:
- Abstract: We provide an original theoretical study of Inverse Reinforcement Learning (IRL) through the lens of reward compatibility, a novel framework to quantify the compatibility of a reward with the given expert's demonstrations. Intuitively, a reward is more compatible with the demonstrations the closer the performance of the expert's policy computed with that reward is to the optimal performance for that reward. This generalizes the notion of feasible reward set, the most common framework in the theoretical IRL literature, for which a reward is either compatible or not compatible. The grayscale introduced by the reward compatibility is the key to extend the realm of provably efficient IRL far beyond what is attainable with the feasible reward set: from tabular to large-scale MDPs. We analyze the IRL problem across various settings, including optimal and suboptimal expert's demonstrations and both online and offline data collection. For all of these dimensions, we provide a tractable algorithm and corresponding sample complexity analysis, as well as various insights on reward compatibility and how the framework can pave the way to yet more general problem settings.
- Abstract(参考訳): 本稿では,報酬の両立を図った逆強化学習(IRL, Inverse Reinforcement Learning, Inverse Reinforcement Learning)の理論的研究について述べる。
直感的には、報酬は、その報酬で計算された専門家のポリシーのパフォーマンスを、その報酬のために最適なパフォーマンスに近づけるデモとより互換性がある。
このことは、理論IRL文学において最も一般的なフレームワークである実現可能な報酬集合の概念を一般化し、報酬は相容性があるか相容性がないかのいずれかである。
報酬整合性によって導入されたグレースケールは、実現可能な報酬セットで達成できる範囲を超えて、証明可能な効率のよいIRLの領域を拡張する鍵である。
我々は、最適および準最適専門家のデモンストレーション、オンラインとオフラインの両方のデータ収集など、さまざまな設定でIRLの問題を解析する。
これらすべての次元に対して、我々は、抽出可能なアルゴリズムとそれに対応するサンプルの複雑さ分析を提供し、また、報酬の互換性や、フレームワークがより一般的な問題設定への道を切り開く方法についての様々な洞察を提供する。
関連論文リスト
- Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms [23.61332577985059]
逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介する。
論文 参考訳(メタデータ) (2024-02-23T15:49:46Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Understanding Reward Ambiguity Through Optimal Transport Theory in
Inverse Reinforcement Learning [4.8951183832371]
逆強化学習(IRL)は、観察された専門家の行動から基礎となる報酬関数を推論することを目的としている。
現在の手法は高次元問題に直面することが多く、幾何学的基礎が欠如している。
本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(OT)理論を利用する。
論文 参考訳(メタデータ) (2023-10-18T15:42:53Z) - Rewarded soups: towards Pareto-optimal alignment by interpolating
weights fine-tuned on diverse rewards [101.7246658985579]
ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。
多様な報酬の不均一性を多政学的戦略に従って受け入れることを提案する。
我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA)タスク,制御(移動)タスクに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-06-07T14:58:15Z) - BC-IRL: Learning Generalizable Reward Functions from Demonstrations [51.535870379280155]
逆強化学習法は、最大エントロピーIRLアプローチと比較して、より一般化された報酬関数を学習する。
我々は、BC-IRLが、説明的な単純なタスクと2つの連続的なロボット制御タスクでより良く一般化する報酬を学習し、一般化設定に挑戦する際のベースラインの成功率の2倍以上を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T17:57:20Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - LiMIIRL: Lightweight Multiple-Intent Inverse Reinforcement Learning [5.1779694507922835]
多目的逆強化学習は、異なる意図のデモンストレーションを合理化するために報酬関数のアンサンブルを見つけようとする。
特徴空間における実演の事前クラスタリングに基づくウォームスタート戦略を提案する。
また、一般的な期待値差尺度を一般化するMI-IRL性能指標を提案する。
論文 参考訳(メタデータ) (2021-06-03T12:00:38Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。