論文の概要: Hallucinating Value: A Pitfall of Dyna-style Planning with Imperfect
Environment Models
- arxiv url: http://arxiv.org/abs/2006.04363v1
- Date: Mon, 8 Jun 2020 05:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 23:55:38.591024
- Title: Hallucinating Value: A Pitfall of Dyna-style Planning with Imperfect
Environment Models
- Title(参考訳): 幻覚的価値:不完全環境モデルを用いたdyna型計画の落とし穴
- Authors: Taher Jafferjee, Ehsan Imani, Erin Talvitie, Martha White, Micheal
Bowling
- Abstract要約: 本稿では,1種類のモデル誤差,すなわち幻覚状態について検討する。
実状態の値を幻覚状態の値に更新すると、状態-作用値が誤解を招く。
我々は4つのダイナ変種を議論し、評価する。3つは実状態をシミュレート(シミュレート)に向けて更新する。
- 参考スコア(独自算出の注目度): 23.10795677039477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dyna-style reinforcement learning (RL) agents improve sample efficiency over
model-free RL agents by updating the value function with simulated experience
generated by an environment model. However, it is often difficult to learn
accurate models of environment dynamics, and even small errors may result in
failure of Dyna agents. In this paper, we investigate one type of model error:
hallucinated states. These are states generated by the model, but that are not
real states of the environment. We present the Hallucinated Value Hypothesis
(HVH): updating values of real states towards values of hallucinated states
results in misleading state-action values which adversely affect the control
policy. We discuss and evaluate four Dyna variants; three which update real
states toward simulated -- and therefore potentially hallucinated -- states and
one which does not. The experimental results provide evidence for the HVH thus
suggesting a fruitful direction toward developing Dyna algorithms robust to
model error.
- Abstract(参考訳): ダイナスタイル強化学習(RL)エージェントは、環境モデルによって生成された模擬経験で値関数を更新することにより、モデルフリーなRLエージェントよりもサンプル効率を向上させる。
しかし、環境力学の正確なモデルを学ぶことはしばしば困難であり、小さなエラーでもdynaエージェントが失敗する可能性がある。
本稿では,1種類のモデル誤差,すなわち幻覚状態について検討する。
これらはモデルによって生成される状態であるが、環境の実際の状態ではない。
幻覚値仮説(hallucinated value hypothesis, hvh): 幻覚状態の値に対する実状態の値の更新は、制御方針に悪影響を及ぼす誤った状態行動の値をもたらす。
我々は4つのダイナ変種を議論し、評価する。3つは実状態をシミュレート(シミュレート)に向けて更新する。
実験結果から,HVHがモデル誤差に頑健なDynaアルゴリズム開発に向けた実りある方向性を示すことが示唆された。
関連論文リスト
- A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Learning Hybrid Dynamics Models With Simulator-Informed Latent States [7.801959219897031]
そこで我々は,シミュレーションを用いて学習モデルの潜伏状態を通知するハイブリッドモデリング手法を提案する。
これにより、シミュレータを介して予測を制御することで、エラーの蓄積を防ぐことができる。
学習に基づく設定では、シミュレータを通して潜在状態を推測するダイナミクスとオブザーバを共同で学習する。
論文 参考訳(メタデータ) (2023-09-06T09:57:58Z) - Exploring the Physical World Adversarial Robustness of Vehicle Detection [13.588120545886229]
アドリアックは現実世界の検知モデルの堅牢性を損なう可能性がある。
CARLAシミュレータを用いた革新的なインスタントレベルデータ生成パイプラインを提案する。
本研究は, 逆境条件下での多種多様なモデル性能について考察した。
論文 参考訳(メタデータ) (2023-08-07T11:09:12Z) - PRISM: Probabilistic Real-Time Inference in Spatial World Models [52.878769723544615]
PRISMはエージェントの動きと視覚知覚の確率的生成モデルにおけるリアルタイムフィルタリングの手法である。
提案手法は10Hzでリアルタイムに動作し,小型・中型屋内環境における最先端SLAMと同等に精度が高い。
論文 参考訳(メタデータ) (2022-12-06T13:59:06Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Likelihood-Free Inference in State-Space Models with Unknown Dynamics [71.94716503075645]
本研究では、状態空間モデルにおいて、観測をシミュレートすることしかできず、遷移ダイナミクスが不明な潜在状態の推測と予測を行う手法を提案する。
本研究では,限られた数のシミュレーションで状態予測と状態予測を行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T12:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。