論文の概要: Generalizing Behavior via Inverse Reinforcement Learning with Closed-Form Reward Centroids
- arxiv url: http://arxiv.org/abs/2509.12010v1
- Date: Mon, 15 Sep 2025 14:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.353939
- Title: Generalizing Behavior via Inverse Reinforcement Learning with Closed-Form Reward Centroids
- Title(参考訳): 閉形逆セントロイドを用いた逆強化学習による一般化挙動
- Authors: Filippo Lazzati, Alberto Maria Metelli,
- Abstract要約: 本研究では,実証を通じて提供される専門家の行動を,新たな環境や追加制約に一般化する問題について検討する。
本稿では,ある有界部分集合における報酬によって引き起こされる「平均」ポリシーを選択する,新しい原理的基準を提案する。
- 参考スコア(独自算出の注目度): 37.79354987519793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of generalizing an expert agent's behavior, provided through demonstrations, to new environments and/or additional constraints. Inverse Reinforcement Learning (IRL) offers a promising solution by seeking to recover the expert's underlying reward function, which, if used for planning in the new settings, would reproduce the desired behavior. However, IRL is inherently ill-posed: multiple reward functions, forming the so-called feasible set, can explain the same observed behavior. Since these rewards may induce different policies in the new setting, in the absence of additional information, a decision criterion is needed to select which policy to deploy. In this paper, we propose a novel, principled criterion that selects the "average" policy among those induced by the rewards in a certain bounded subset of the feasible set. Remarkably, we show that this policy can be obtained by planning with the reward centroid of that subset, for which we derive a closed-form expression. We then present a provably efficient algorithm for estimating this centroid using an offline dataset of expert demonstrations only. Finally, we conduct numerical simulations that illustrate the relationship between the expert's behavior and the behavior produced by our method.
- Abstract(参考訳): 本研究では,実証を通じて提供される専門家の行動を,新たな環境や追加制約に一般化する問題について検討する。
Inverse Reinforcement Learning (IRL)は、エキスパートの根底にある報酬関数を復元し、新しい設定での計画に使用すれば、望ましい振る舞いを再現することで、有望なソリューションを提供する。
しかし、IRLは本質的に不備であり、複数の報酬関数はいわゆる実現可能な集合を形成し、同じ振る舞いを説明できる。
これらの報酬は、新しい設定で異なるポリシーを誘導する可能性があるため、追加情報がない場合は、どのポリシーをデプロイするかを選択するための決定基準が必要である。
本稿では,ある集合の有界部分集合における報酬によって引き起こされる報酬のうち,平均的政策を選択する,新しい原理的基準を提案する。
注目すべきことに、このポリシーは、その部分集合の報酬セントロイドを用いて計画し、閉形式表現を導出することで得られる。
次に、専門家によるデモンストレーションのみのオフラインデータセットを用いて、このセンタロイドを推定するための証明可能なアルゴリズムを提案する。
最後に,本手法が生み出す行動と専門家の行動の関係を示す数値シミュレーションを行う。
関連論文リスト
- Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Distributional Method for Risk Averse Reinforcement Learning [0.0]
リスク逆マルコフ決定過程における最適政策を学習するための分布法を提案する。
我々は、状態、行動、コストの連続的な観察を仮定し、動的リスク尺度を用いて政策のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-02-27T19:48:42Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。