論文の概要: A Relational Intervention Approach for Unsupervised Dynamics
Generalization in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04551v1
- Date: Thu, 9 Jun 2022 15:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 19:49:06.874902
- Title: A Relational Intervention Approach for Unsupervised Dynamics
Generalization in Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習における教師なしダイナミクス一般化のための関係的介入アプローチ
- Authors: Jixian Guo, Mingming Gong, Dacheng Tao
- Abstract要約: 同じ環境に属する2つの推定$hatz_i, hatz_j$の確率を推定するための介入予測モジュールを導入する。
提案手法により推定される$hatZ$は,従来の方法よりも冗長な情報が少ないことを実証的に示す。
- 参考スコア(独自算出の注目度): 113.75991721607174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization of model-based reinforcement learning (MBRL) methods to
environments with unseen transition dynamics is an important yet challenging
problem. Existing methods try to extract environment-specified information $Z$
from past transition segments to make the dynamics prediction model
generalizable to different dynamics. However, because environments are not
labelled, the extracted information inevitably contains redundant information
unrelated to the dynamics in transition segments and thus fails to maintain a
crucial property of $Z$: $Z$ should be similar in the same environment and
dissimilar in different ones. As a result, the learned dynamics prediction
function will deviate from the true one, which undermines the generalization
ability. To tackle this problem, we introduce an interventional prediction
module to estimate the probability of two estimated $\hat{z}_i, \hat{z}_j$
belonging to the same environment. Furthermore, by utilizing the $Z$'s
invariance within a single environment, a relational head is proposed to
enforce the similarity between $\hat{{Z}}$ from the same environment. As a
result, the redundant information will be reduced in $\hat{Z}$. We empirically
show that $\hat{{Z}}$ estimated by our method enjoy less redundant information
than previous methods, and such $\hat{{Z}}$ can significantly reduce dynamics
prediction errors and improve the performance of model-based RL methods on
zero-shot new environments with unseen dynamics. The codes of this method are
available at \url{https://github.com/CR-Gjx/RIA}.
- Abstract(参考訳): モデルベース強化学習法(MBRL)の非可視遷移力学環境への一般化は重要な課題である。
既存の方法は、過去の遷移セグメントから環境特定情報$Z$を抽出し、ダイナミクス予測モデルを異なるダイナミクスに一般化できるようにする。
しかし、環境がラベル付けされていないため、抽出された情報には必然的に遷移セグメントのダイナミクスとは無関係な冗長な情報が含まれており、従って$z$:$z$という重要な特性を同じ環境で同じ環境でも同じで、異なる環境では似ていなければならない。
その結果、学習されたダイナミクス予測関数は、一般化能力を損なう真の関数から逸脱する。
そこで本研究では,同一環境に属する2つの推定値$\hat{z}_i, \hat{z}_j$の確率を推定するための介入予測モジュールを提案する。
さらに、単一の環境における$Z$の不変性を利用することで、同じ環境から$\hat{Z}}$間の類似性を強制する関係ヘッドが提案される。
その結果、冗長な情報は$\hat{z}$に減らされる。
本手法により推定される$\hat{{{z}}$ は従来の手法よりも冗長な情報が少なく,そのような$\hat{{z}}$ はダイナミクス予測誤差を大幅に低減し,ゼロショットニュー環境におけるモデルベースrl法の性能を無意識ダイナミクスで向上させる。
このメソッドのコードは \url{https://github.com/cr-gjx/ria} で入手できる。
関連論文リスト
- COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Meta-Learning Operators to Optimality from Multi-Task Non-IID Data [1.7587442088965224]
すべてのデータを使って共通の表現関数を学ぶことは、計算の労力と統計的一般化の両方に利益がある。
既存の異方性に依存しないメタラーニングは、表現更新に偏りを生じさせるため、ノイズ項のスケーリングは、ソースタスクの数に好ましくない。
我々は、Collins et al. (2021) で提案された交互化最小化退化スキームの適応 $texttDFW$ を導入し、最適な表現に線形収束を確立する。
論文 参考訳(メタデータ) (2023-08-08T17:56:20Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Out-of-Variable Generalization for Discriminative Models [13.075802230332298]
機械学習では、エージェントが新しい環境でうまく機能する能力は知性の重要な側面である。
我々は、これまで共同で観測されなかった変数を持つ環境に関する、$textitout-of-variable$ generalizationを調査した。
本稿では,重なり合うが相違する因果予測器の集合に直面する場合,非自明な変数外一般化性能を示す手法を提案する。
論文 参考訳(メタデータ) (2023-04-16T21:29:54Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Provable Domain Generalization via Invariant-Feature Subspace Recovery [18.25619572103648]
本稿では,不変部分空間回復(ISR)を用いた領域一般化を提案する。
トレーニングIRMとは異なり、アルゴリズムは非変分問題をバイパスし、グローバルコンバージェンスを楽しむ。
さらに、実世界の3つの画像データセットにおいて、ISR-は単純で効果的な後処理法として利用できることを示す。
論文 参考訳(メタデータ) (2022-01-30T21:22:47Z) - ReLU Regression with Massart Noise [52.10842036932169]
本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。
我々は自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。
このモデルにおいて,パラメータの正確な回復を実現する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-10T02:13:22Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。