Fugu-MT 論文翻訳(概要): Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL

論文の概要: Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL

arxiv url: http://arxiv.org/abs/2306.02419v1
Date: Sun, 4 Jun 2023 17:51:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 17:56:56.530072
Title: Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL
Title（参考訳）: 悪い習慣:RLにおける政策立案と外軌道一般化
Authors: Miguel Suau, Matthijs T. J. Spaan, Frans A. Oliehoek
Abstract要約: 強化学習エージェントは、特定の方針に従う場合にのみ有効となる習慣を発達させることがある。本稿では,この現象の数学的特徴について述べる。
参考スコア（独自算出の注目度）: 18.828198535593096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning agents may sometimes develop habits that are effective only when specific policies are followed. After an initial exploration phase in which agents try out different actions, they eventually converge toward a particular policy. When this occurs, the distribution of state-action trajectories becomes narrower, and agents start experiencing the same transitions again and again. At this point, spurious correlations may arise. Agents may then pick up on these correlations and learn state representations that do not generalize beyond the agent's trajectory distribution. In this paper, we provide a mathematical characterization of this phenomenon, which we refer to as policy confounding, and show, through a series of examples, when and how it occurs in practice.
Abstract（参考訳）: 強化学習エージェントは、特定のポリシーに従う場合にのみ有効な習慣を発達させることがある。エージェントが異なるアクションを試す最初の調査フェーズの後、最終的には特定のポリシーに向かって収束する。これが起こると、状態行動軌道の分布はより狭くなり、エージェントは同じ遷移を何度も経験し始める。この時点では、急激な相関が生じる可能性がある。エージェントはこれらの相関を拾い上げ、エージェントの軌道分布を超えて一般化しない状態表現を学ぶことができる。本稿では,この現象の数学的特徴を,政策の共起と表現し,その現象が実際にいつ,どのように起こるのかを一連の例を通して示す。

関連論文リスト

Breaking Habits: On the Role of the Advantage Function in Learning Causal State Representations [4.514386953429771]
政策勾配法でよく用いられる利点関数は、勾配推定のばらつきを減少させる。分析的および経験的証拠の両方で、有利な関数によるトレーニングが軌道外性能の向上につながることを示す。
論文参考訳（メタデータ） (2025-06-13T16:06:47Z)
Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting [64.13583792391783]
逆強化学習は、エージェントの振る舞いを観察することから、エージェントの好みを推測することを目的としている。 IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。一般にIRLは、正しい最適ポリシーを特定するのに、$R$に関する十分な情報を推測できないことを示す。
論文参考訳（メタデータ） (2024-12-15T11:08:58Z)
Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文参考訳（メタデータ） (2024-07-30T08:48:49Z)
Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。 ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。 ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:52:36Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Hierarchical Imitation Learning for Stochastic Environments [31.64016324441371]
分布的リアリズムを改善する既存の方法は通常階層的なポリシーに依存している。環境条件下での対人訓練に伴う変化を解消するロバスト型条件付け(RTC)を提案する。大規模なOpen Motionデータセットを含む2つの領域の実験では、最先端のベースラインと比較して、タスクパフォーマンスを維持したり改善したりしながら、分散リアリズムが改善された。
論文参考訳（メタデータ） (2023-09-25T10:10:34Z)
Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文参考訳（メタデータ） (2023-02-28T11:58:39Z)
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文参考訳（メタデータ） (2022-11-20T21:57:10Z)
On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。 3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文参考訳（メタデータ） (2021-02-20T05:51:28Z)
Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文参考訳（メタデータ） (2020-10-28T10:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。