論文の概要: A Relational Intervention Approach for Unsupervised Dynamics
Generalization in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04551v1
- Date: Thu, 9 Jun 2022 15:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 19:49:06.874902
- Title: A Relational Intervention Approach for Unsupervised Dynamics
Generalization in Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習における教師なしダイナミクス一般化のための関係的介入アプローチ
- Authors: Jixian Guo, Mingming Gong, Dacheng Tao
- Abstract要約: 同じ環境に属する2つの推定$hatz_i, hatz_j$の確率を推定するための介入予測モジュールを導入する。
提案手法により推定される$hatZ$は,従来の方法よりも冗長な情報が少ないことを実証的に示す。
- 参考スコア(独自算出の注目度): 113.75991721607174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization of model-based reinforcement learning (MBRL) methods to
environments with unseen transition dynamics is an important yet challenging
problem. Existing methods try to extract environment-specified information $Z$
from past transition segments to make the dynamics prediction model
generalizable to different dynamics. However, because environments are not
labelled, the extracted information inevitably contains redundant information
unrelated to the dynamics in transition segments and thus fails to maintain a
crucial property of $Z$: $Z$ should be similar in the same environment and
dissimilar in different ones. As a result, the learned dynamics prediction
function will deviate from the true one, which undermines the generalization
ability. To tackle this problem, we introduce an interventional prediction
module to estimate the probability of two estimated $\hat{z}_i, \hat{z}_j$
belonging to the same environment. Furthermore, by utilizing the $Z$'s
invariance within a single environment, a relational head is proposed to
enforce the similarity between $\hat{{Z}}$ from the same environment. As a
result, the redundant information will be reduced in $\hat{Z}$. We empirically
show that $\hat{{Z}}$ estimated by our method enjoy less redundant information
than previous methods, and such $\hat{{Z}}$ can significantly reduce dynamics
prediction errors and improve the performance of model-based RL methods on
zero-shot new environments with unseen dynamics. The codes of this method are
available at \url{https://github.com/CR-Gjx/RIA}.
- Abstract(参考訳): モデルベース強化学習法(MBRL)の非可視遷移力学環境への一般化は重要な課題である。
既存の方法は、過去の遷移セグメントから環境特定情報$Z$を抽出し、ダイナミクス予測モデルを異なるダイナミクスに一般化できるようにする。
しかし、環境がラベル付けされていないため、抽出された情報には必然的に遷移セグメントのダイナミクスとは無関係な冗長な情報が含まれており、従って$z$:$z$という重要な特性を同じ環境で同じ環境でも同じで、異なる環境では似ていなければならない。
その結果、学習されたダイナミクス予測関数は、一般化能力を損なう真の関数から逸脱する。
そこで本研究では,同一環境に属する2つの推定値$\hat{z}_i, \hat{z}_j$の確率を推定するための介入予測モジュールを提案する。
さらに、単一の環境における$Z$の不変性を利用することで、同じ環境から$\hat{Z}}$間の類似性を強制する関係ヘッドが提案される。
その結果、冗長な情報は$\hat{z}$に減らされる。
本手法により推定される$\hat{{{z}}$ は従来の手法よりも冗長な情報が少なく,そのような$\hat{{z}}$ はダイナミクス予測誤差を大幅に低減し,ゼロショットニュー環境におけるモデルベースrl法の性能を無意識ダイナミクスで向上させる。
このメソッドのコードは \url{https://github.com/cr-gjx/ria} で入手できる。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Invariant Risk Minimization Is A Total Variation Model [3.000494957386027]
不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。
IRMは本質的に学習リスクのL2$(TV-$ell$)に基づく総変動であることを示す。
本稿では,TV-$ell$モデルに基づく新しいIRMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T15:34:14Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Out-of-Variable Generalization for Discriminative Models [13.075802230332298]
機械学習では、エージェントが新しい環境でうまく機能する能力は知性の重要な側面である。
我々は、これまで共同で観測されなかった変数を持つ環境に関する、$textitout-of-variable$ generalizationを調査した。
本稿では,重なり合うが相違する因果予測器の集合に直面する場合,非自明な変数外一般化性能を示す手法を提案する。
論文 参考訳(メタデータ) (2023-04-16T21:29:54Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Provable Domain Generalization via Invariant-Feature Subspace Recovery [18.25619572103648]
本稿では,不変部分空間回復(ISR)を用いた領域一般化を提案する。
トレーニングIRMとは異なり、アルゴリズムは非変分問題をバイパスし、グローバルコンバージェンスを楽しむ。
さらに、実世界の3つの画像データセットにおいて、ISR-は単純で効果的な後処理法として利用できることを示す。
論文 参考訳(メタデータ) (2022-01-30T21:22:47Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。