論文の概要: How Hard is it to Confuse a World Model?
- arxiv url: http://arxiv.org/abs/2510.21232v1
- Date: Fri, 24 Oct 2025 08:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.3988
- Title: How Hard is it to Confuse a World Model?
- Title(参考訳): 世界モデルと混同するのはどれくらい難しいのか?
- Authors: Waris Radji, Odalric-Ambrym Maillard,
- Abstract要約: 強化学習理論において、最も紛らわしい例の概念は、後悔の少ない境界を確立する中心である。
我々は、ニューラルネットワークの世界モデルに対するこの問題を制約付き最適化として定式化する。
以上の結果から, 達成可能な混乱度は, 近似モデルの不確実性と相関することが示唆された。
- 参考スコア(独自算出の注目度): 6.896797484250302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL) theory, the concept of most confusing instances is central to establishing regret lower bounds, that is, the minimal exploration needed to solve a problem. Given a reference model and its optimal policy, a most confusing instance is the statistically closest alternative model that makes a suboptimal policy optimal. While this concept is well-studied in multi-armed bandits and ergodic tabular Markov decision processes, constructing such instances remains an open question in the general case. In this paper, we formalize this problem for neural network world models as a constrained optimization: finding a modified model that is statistically close to the reference one, while producing divergent performance between optimal and suboptimal policies. We propose an adversarial training procedure to solve this problem and conduct an empirical study across world models of varying quality. Our results suggest that the degree of achievable confusion correlates with uncertainty in the approximate model, which may inform theoretically-grounded exploration strategies for deep model-based RL.
- Abstract(参考訳): 強化学習(RL)理論において、最も紛らわしい例の概念は、後悔の少ない境界、すなわち問題を解くのに必要な最小限の探索を確立することの中心である。
参照モデルとその最適ポリシーが与えられた場合、最も紛らわしい例は、準最適ポリシーを最適にする統計的に最も近い代替モデルである。
この概念は多武装のバンディットやエルゴードの表形式的なマルコフ決定過程においてよく研究されているが、そのような例を構成することは一般的な場合においても未解決の問題である。
本稿では、ニューラルネットワークの世界モデルに対するこの問題を制約付き最適化として、参照モデルに統計的に近い修正モデルを見つけるとともに、最適ポリシーと準最適ポリシーの分岐性能を生成する。
本稿では,この問題を解決し,様々な品質の世界のモデルにまたがる実証的研究を行うための対人訓練手法を提案する。
以上の結果から,得られた混乱度は近似モデルの不確実性と相関し,深部モデルに基づくRLの理論的基盤探索戦略を示唆する可能性が示唆された。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Pretty darn good control: when are approximate solutions better than
approximate models [0.0]
DRLアルゴリズムは,漁業における非線形3変数モデルにおける解の近似に成功していることを示す。
DRLで得られた政策は, 一定の死亡率の政策よりも収益性が高く, 持続性も高いことを示す。
論文 参考訳(メタデータ) (2023-08-25T19:58:17Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。