論文の概要: Hallucinating Value: A Pitfall of Dyna-style Planning with Imperfect
Environment Models
- arxiv url: http://arxiv.org/abs/2006.04363v1
- Date: Mon, 8 Jun 2020 05:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 23:55:38.591024
- Title: Hallucinating Value: A Pitfall of Dyna-style Planning with Imperfect
Environment Models
- Title(参考訳): 幻覚的価値:不完全環境モデルを用いたdyna型計画の落とし穴
- Authors: Taher Jafferjee, Ehsan Imani, Erin Talvitie, Martha White, Micheal
Bowling
- Abstract要約: 本稿では,1種類のモデル誤差,すなわち幻覚状態について検討する。
実状態の値を幻覚状態の値に更新すると、状態-作用値が誤解を招く。
我々は4つのダイナ変種を議論し、評価する。3つは実状態をシミュレート(シミュレート)に向けて更新する。
- 参考スコア(独自算出の注目度): 23.10795677039477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dyna-style reinforcement learning (RL) agents improve sample efficiency over
model-free RL agents by updating the value function with simulated experience
generated by an environment model. However, it is often difficult to learn
accurate models of environment dynamics, and even small errors may result in
failure of Dyna agents. In this paper, we investigate one type of model error:
hallucinated states. These are states generated by the model, but that are not
real states of the environment. We present the Hallucinated Value Hypothesis
(HVH): updating values of real states towards values of hallucinated states
results in misleading state-action values which adversely affect the control
policy. We discuss and evaluate four Dyna variants; three which update real
states toward simulated -- and therefore potentially hallucinated -- states and
one which does not. The experimental results provide evidence for the HVH thus
suggesting a fruitful direction toward developing Dyna algorithms robust to
model error.
- Abstract(参考訳): ダイナスタイル強化学習(RL)エージェントは、環境モデルによって生成された模擬経験で値関数を更新することにより、モデルフリーなRLエージェントよりもサンプル効率を向上させる。
しかし、環境力学の正確なモデルを学ぶことはしばしば困難であり、小さなエラーでもdynaエージェントが失敗する可能性がある。
本稿では,1種類のモデル誤差,すなわち幻覚状態について検討する。
これらはモデルによって生成される状態であるが、環境の実際の状態ではない。
幻覚値仮説(hallucinated value hypothesis, hvh): 幻覚状態の値に対する実状態の値の更新は、制御方針に悪影響を及ぼす誤った状態行動の値をもたらす。
我々は4つのダイナ変種を議論し、評価する。3つは実状態をシミュレート(シミュレート)に向けて更新する。
実験結果から,HVHがモデル誤差に頑健なDynaアルゴリズム開発に向けた実りある方向性を示すことが示唆された。
関連論文リスト
- Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Learning Hybrid Dynamics Models With Simulator-Informed Latent States [7.801959219897031]
そこで我々は,シミュレーションを用いて学習モデルの潜伏状態を通知するハイブリッドモデリング手法を提案する。
これにより、シミュレータを介して予測を制御することで、エラーの蓄積を防ぐことができる。
学習に基づく設定では、シミュレータを通して潜在状態を推測するダイナミクスとオブザーバを共同で学習する。
論文 参考訳(メタデータ) (2023-09-06T09:57:58Z) - Exploring the Physical World Adversarial Robustness of Vehicle Detection [13.588120545886229]
アドリアックは現実世界の検知モデルの堅牢性を損なう可能性がある。
CARLAシミュレータを用いた革新的なインスタントレベルデータ生成パイプラインを提案する。
本研究は, 逆境条件下での多種多様なモデル性能について考察した。
論文 参考訳(メタデータ) (2023-08-07T11:09:12Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - PRISM: Probabilistic Real-Time Inference in Spatial World Models [52.878769723544615]
PRISMはエージェントの動きと視覚知覚の確率的生成モデルにおけるリアルタイムフィルタリングの手法である。
提案手法は10Hzでリアルタイムに動作し,小型・中型屋内環境における最先端SLAMと同等に精度が高い。
論文 参考訳(メタデータ) (2022-12-06T13:59:06Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Dyna-T: Dyna-Q and Upper Confidence Bounds Applied to Trees [0.9137554315375919]
本稿ではDyna-Tという新しいアルゴリズムについて予備検討する。
強化学習(RL)では、計画エージェントは環境をモデルとして表現する。
より良いモデルを学ぶために、あるいは価値関数とポリシーを直接改善するために、経験を使うことができる。
論文 参考訳(メタデータ) (2022-01-12T15:06:30Z) - Likelihood-Free Inference in State-Space Models with Unknown Dynamics [71.94716503075645]
本研究では、状態空間モデルにおいて、観測をシミュレートすることしかできず、遷移ダイナミクスが不明な潜在状態の推測と予測を行う手法を提案する。
本研究では,限られた数のシミュレーションで状態予測と状態予測を行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T12:33:42Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。