Fugu-MT 論文翻訳(概要): Learning Causally Invariant Reward Functions from Diverse Demonstrations

論文の概要: Learning Causally Invariant Reward Functions from Diverse Demonstrations

arxiv url: http://arxiv.org/abs/2409.08012v1
Date: Thu, 12 Sep 2024 12:56:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 16:29:19.331878
Title: Learning Causally Invariant Reward Functions from Diverse Demonstrations
Title（参考訳）: 逆デモによる因果不変リワード関数の学習
Authors: Ivan Ovinnikov, Eugene Bykovets, Joachim M. Buhmann,
Abstract要約: 逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
参考スコア（独自算出の注目度）: 6.351909403078771
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inverse reinforcement learning methods aim to retrieve the reward function of a Markov decision process based on a dataset of expert demonstrations. The commonplace scarcity and heterogeneous sources of such demonstrations can lead to the absorption of spurious correlations in the data by the learned reward function. Consequently, this adaptation often exhibits behavioural overfitting to the expert data set when a policy is trained on the obtained reward function under distribution shift of the environment dynamics. In this work, we explore a novel regularization approach for inverse reinforcement learning methods based on the causal invariance principle with the goal of improved reward function generalization. By applying this regularization to both exact and approximate formulations of the learning task, we demonstrate superior policy performance when trained using the recovered reward functions in a transfer setting
Abstract（参考訳）: 逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。このような実験の共通部分の不足と異種源は、学習された報酬関数によるデータ内の急激な相関の吸収につながる可能性がある。この適応は、環境力学の分布シフトにおいて、得られた報酬関数に基づいてポリシーを訓練する際、専門家データセットに振る舞い過度に適合することが多い。本研究では,報酬関数の一般化向上を目的とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。この正規化を学習課題の正確な定式化と近似式化の両方に適用することにより、移行設定における報酬関数の学習時に優れた政策性能を示す。

関連論文リスト

Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization [52.74762030521324]
本稿では,観察行動から報酬関数を学習するための新しいアルゴリズムを提案する。我々は,アルゴリズムの信頼性とサンプル効率について,強力な理論的保証を提供する。
論文参考訳（メタデータ） (2026-01-19T04:12:51Z)
Distributional Inverse Reinforcement Learning [12.590471116307485]
オフライン逆強化学習(IRL)のための分散フレームワークを提案する。本手法は,特に報酬分布の学習において,専門家の行動の構造を捉える。この定式化は行動分析とリスク認識模倣学習に適している。
論文参考訳（メタデータ） (2025-10-03T13:58:09Z)
Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文参考訳（メタデータ） (2025-10-02T09:55:26Z)
Recursive Reward Aggregation [51.552609126905885]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文参考訳（メタデータ） (2025-07-11T12:37:20Z)
RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
論文参考訳（メタデータ） (2025-02-27T13:47:29Z)
Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文参考訳（メタデータ） (2024-10-18T03:02:44Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Versatile Inverse Reinforcement Learning via Cumulative Rewards [22.56145954060092]
逆強化学習は、専門家の行動と意図を符号化することを目的として、専門家のデモンストレーションから報酬関数を推論する。本稿では,得られた報酬を反復訓練された識別器の和として定式化し,これらの問題を克服する逆強化学習法を提案する。
論文参考訳（メタデータ） (2021-11-15T10:49:15Z)
Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain [11.075036222901417]
そこで本研究では,実世界の実演を参考に,シミュレータの報酬関数を学習するヘテロドメインからの逆強化学習を提案する。この手法の背景にある直感は、報酬関数は専門家を模倣するだけでなく、シミュレータと現実世界のダイナミクスの違いに応じて調整された行動を奨励すべきである。
論文参考訳（メタデータ） (2021-10-21T19:23:15Z)
A New Representation of Successor Features for Transfer across Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文参考訳（メタデータ） (2021-07-18T12:37:05Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文参考訳（メタデータ） (2020-11-09T19:37:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。