Fugu-MT 論文翻訳(概要): Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL

論文の概要: Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL

arxiv url: http://arxiv.org/abs/2306.02419v2
Date: Mon, 24 Jun 2024 07:06:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 05:08:33.816312
Title: Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL
Title（参考訳）: 悪い習慣:RLにおける政策の相違と軌道外一般化
Authors: Miguel Suau, Matthijs T. J. Spaan, Frans A. Oliehoek,
Abstract要約: 強化学習エージェントは、特定の政策の下でのみ有効となる習慣を発達させる傾向がある。本稿では,この現象の数学的特徴について述べる。
参考スコア（独自算出の注目度）: 20.43882227518439
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning agents tend to develop habits that are effective only under specific policies. Following an initial exploration phase where agents try out different actions, they eventually converge onto a particular policy. As this occurs, the distribution over state-action trajectories becomes narrower, leading agents to repeatedly experience the same transitions. This repetitive exposure fosters spurious correlations between certain observations and rewards. Agents may then pick up on these correlations and develop simplistic habits tailored to the specific set of trajectories dictated by their policy. The problem is that these habits may yield incorrect outcomes when agents are forced to deviate from their typical trajectories, prompted by changes in the environment. This paper presents a mathematical characterization of this phenomenon, termed policy confounding, and illustrates, through a series of examples, the circumstances under which it occurs.
Abstract（参考訳）: 強化学習エージェントは、特定の政策の下でのみ有効となる習慣を発達させる傾向がある。エージェントが異なるアクションを試す最初の探索フェーズの後、彼らは最終的に特定のポリシーに収束する。これが起こると、状態-作用軌道上の分布は狭まり、エージェントは同じ遷移を繰り返し経験するようになる。この反復露光は、特定の観察と報酬の間の急激な相関を促進する。エージェントはこれらの相関関係を拾い上げ、それらのポリシーによって規定される特定の軌道に合わせた単純な習慣を発達させるかもしれない。問題は、これらの習慣は、エージェントが環境の変化によって引き起こされる典型的な軌道から逸脱させられたときに、誤った結果をもたらす可能性があることである。本稿では,この現象を数学的に解析し,一連の事例を通して,その発生状況を説明する。

関連論文リスト

Breaking Habits: On the Role of the Advantage Function in Learning Causal State Representations [4.514386953429771]
政策勾配法でよく用いられる利点関数は、勾配推定のばらつきを減少させる。分析的および経験的証拠の両方で、有利な関数によるトレーニングが軌道外性能の向上につながることを示す。
論文参考訳（メタデータ） (2025-06-13T16:06:47Z)
Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting [64.13583792391783]
逆強化学習は、エージェントの振る舞いを観察することから、エージェントの好みを推測することを目的としている。 IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。一般にIRLは、正しい最適ポリシーを特定するのに、$R$に関する十分な情報を推測できないことを示す。
論文参考訳（メタデータ） (2024-12-15T11:08:58Z)
Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文参考訳（メタデータ） (2024-07-30T08:48:49Z)
Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。 ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。 ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:52:36Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Hierarchical Imitation Learning for Stochastic Environments [31.64016324441371]
分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。環境条件下での対人訓練に伴う変化を解消するロバスト型条件付け(RTC)を提案する。大規模なOpen Motionデータセットを含む2つの領域の実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムが改善された。
論文参考訳（メタデータ） (2023-09-25T10:10:34Z)
Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文参考訳（メタデータ） (2023-02-28T11:58:39Z)
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文参考訳（メタデータ） (2022-11-20T21:57:10Z)
On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。 3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文参考訳（メタデータ） (2021-02-20T05:51:28Z)
Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文参考訳（メタデータ） (2020-10-28T10:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。