論文の概要: Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
- arxiv url: http://arxiv.org/abs/2410.23680v1
- Date: Thu, 31 Oct 2024 07:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:56.706472
- Title: Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
- Title(参考訳): 逆強化学習の再考:データアライメントからタスクアライメントへ
- Authors: Weichao Zhou, Wenchao Li,
- Abstract要約: 模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.477559660351106
- License:
- Abstract: Many imitation learning (IL) algorithms use inverse reinforcement learning (IRL) to infer a reward function that aligns with the demonstration. However, the inferred reward functions often fail to capture the underlying task objectives. In this paper, we propose a novel framework for IRL-based IL that prioritizes task alignment over conventional data alignment. Our framework is a semi-supervised approach that leverages expert demonstrations as weak supervision to derive a set of candidate reward functions that align with the task rather than only with the data. It then adopts an adversarial mechanism to train a policy with this set of reward functions to gain a collective validation of the policy's ability to accomplish the task. We provide theoretical insights into this framework's ability to mitigate task-reward misalignment and present a practical implementation. Our experimental results show that our framework outperforms conventional IL baselines in complex and transfer learning scenarios.
- Abstract(参考訳): 多くの模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
しかし、推論された報酬関数は、基礎となるタスクの目的を捉えるのに失敗することが多い。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
我々のフレームワークは、専門家によるデモンストレーションを弱い監視として活用し、データだけでなくタスクと整合する候補報酬関数のセットを導出する半教師付きアプローチである。
次に、この報酬関数のセットでポリシーを訓練し、そのタスクを達成するための政策の能力の集合的検証を得るための敵対的なメカニズムを採用する。
我々は,タスク・リワードの誤調整を軽減し,実践的な実装を提示するこの枠組みの能力に関する理論的知見を提供する。
実験の結果,我々のフレームワークは複雑・伝達学習のシナリオにおいて従来のILベースラインよりも優れていた。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - PAGAR: Taming Reward Misalignment in Inverse Reinforcement
Learning-Based Imitation Learning with Protagonist Antagonist Guided
Adversarial Reward [8.83374617444803]
我々は、PAGAR(Protagonist Antagonist Guided Adrial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入する。
PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。
提案アルゴリズムは,複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が困難であることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:57:53Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。