論文の概要: Outcome-Guided Counterfactuals for Reinforcement Learning Agents from a
Jointly Trained Generative Latent Space
- arxiv url: http://arxiv.org/abs/2207.07710v1
- Date: Fri, 15 Jul 2022 19:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 15:05:30.999942
- Title: Outcome-Guided Counterfactuals for Reinforcement Learning Agents from a
Jointly Trained Generative Latent Space
- Title(参考訳): 共同学習型潜在空間からの強化学習エージェントの出力誘導対策
- Authors: Eric Yeh, Pedro Sequeira, Jesse Hostetler, Melinda Gervasio
- Abstract要約: 本稿では, 強化学習剤(RL)の新規な生成法を提案する。
提案手法では,エージェントの動作に関連する観測および結果変数に関する情報を共同で符号化する潜在空間の学習に,変分オートエンコーダを用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel generative method for producing unseen and plausible
counterfactual examples for reinforcement learning (RL) agents based upon
outcome variables that characterize agent behavior. Our approach uses a
variational autoencoder to train a latent space that jointly encodes
information about the observations and outcome variables pertaining to an
agent's behavior. Counterfactuals are generated using traversals in this latent
space, via gradient-driven updates as well as latent interpolations against
cases drawn from a pool of examples. These include updates to raise the
likelihood of generated examples, which improves the plausibility of generated
counterfactuals. From experiments in three RL environments, we show that these
methods produce counterfactuals that are more plausible and proximal to their
queries compared to purely outcome-driven or case-based baselines. Finally, we
show that a latent jointly trained to reconstruct both the input observations
and behavioral outcome variables produces higher-quality counterfactuals over
latents trained solely to reconstruct the observation inputs.
- Abstract(参考訳): 本稿では,エージェントの振る舞いを特徴付ける結果変数に基づく強化学習 (rl) エージェントの非知覚的かつ妥当な反事実例を生成する新しい生成法を提案する。
提案手法は,エージェントの行動に関連する観測値と結果変数に関する情報を共同でエンコードする潜在空間を学習するために変分オートエンコーダを用いる。
この潜在空間のトラバーサル、勾配駆動更新、サンプルプールから引き出されたケースに対する潜時補間によって、カウンターファクトが生成される。
これには、生成されたサンプルの可能性を高める更新が含まれている。
3つのRL環境における実験から、これらの手法は、純粋に結果駆動あるいはケースベースベースラインと比較して、クエリに対してより妥当で近似的な反ファクトアルを生成することを示す。
最後に,入力観測値と行動結果変数の両方を再構成するために共同で訓練された潜伏者が,観測入力を再構築するために訓練された潜伏者に対して高い品質の反事実を生じさせることを示した。
関連論文リスト
- Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - Reframing the Relationship in Out-of-Distribution Detection [4.182518087792777]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する新しいアプローチを提案する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-27T02:27:28Z) - Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay [16.269591842495892]
本研究では, 逐次的オフラインタスクに取り組むために, 前方転送を容易にし, 破滅的な忘れを緩和する実践的パラダイムについて検討する。
本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-16T15:39:11Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Disentangling Action Sequences: Discovering Correlated Samples [6.179793031975444]
我々は、データ自体が要因ではなく非絡み合いにおいて重要な役割を担い、非絡み合い表現は潜在変数とアクションシーケンスとを一致させることを示した。
本稿では,アクションシーケンスをステップバイステップで切り離すための新しいフレームワークFVAEを提案する。
dSprites と 3D Chairs の実験結果から, FVAE は絡み合いの安定性を向上させることが示された。
論文 参考訳(メタデータ) (2020-10-17T07:37:50Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Estimating the Effects of Continuous-valued Interventions using
Generative Adversarial Networks [103.14809802212535]
我々は,連続的評価介入の効果を推定する問題に対処するため,GAN(Generative Adversarial Network)フレームワークを構築した。
我々のモデルであるSCIGANは柔軟であり、いくつかの異なる継続的な介入に対する対実的な結果の同時推定が可能である。
継続的な介入に移行することによって生じる課題に対処するために、差別者のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T18:46:21Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。