論文の概要: Selecting Belief-State Approximations in Simulators with Latent States
- arxiv url: http://arxiv.org/abs/2511.20870v1
- Date: Tue, 25 Nov 2025 21:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.872205
- Title: Selecting Belief-State Approximations in Simulators with Latent States
- Title(参考訳): 潜在状態を持つシミュレータにおける信念状態近似の選択
- Authors: Nan Jiang,
- Abstract要約: 状態リセットは基本的なものであるが、しばしば見過ごされるシミュレータの能力である。
この問題は、一般的な条件分布選択タスクに還元されることを示す。
我々はサンプリング専用アクセス下での新しいアルゴリズムと解析法を開発した。
- 参考スコア(独自算出の注目度): 6.368520403252146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State resetting is a fundamental but often overlooked capability of simulators. It supports sample-based planning by allowing resets to previously encountered simulation states, and enables calibration of simulators using real data by resetting to states observed in real-system traces. While often taken for granted, state resetting in complex simulators can be nontrivial: when the simulator comes with latent variables (states), state resetting requires sampling from the posterior over the latent state given the observable history, a.k.a. the belief state (Silver and Veness, 2010). While exact sampling is often infeasible, many approximate belief-state samplers can be constructed, raising the question of how to select among them using only sampling access to the simulator. In this paper, we show that this problem reduces to a general conditional distribution-selection task and develop a new algorithm and analysis under sampling-only access. Building on this reduction, the belief-state selection problem admits two different formulations: latent state-based selection, which directly targets the conditional distribution of the latent state, and observation-based selection, which targets the induced distribution over the observation. Interestingly, these formulations differ in how their guarantees interact with the downstream roll-out methods: perhaps surprisingly, observation-based selection may fail under the most natural roll-out method (which we call Single-Reset) but enjoys guarantees under the less conventional alternative (which we call Repeated-Reset). Together with discussion on issues such as distribution shift and the choice of sampling policies, our paper reveals a rich landscape of algorithmic choices, theoretical nuances, and open questions, in this seemingly simple problem.
- Abstract(参考訳): 状態リセットは基本的なものであるが、しばしば見過ごされるシミュレータの能力である。
これは、以前に遭遇したシミュレーション状態をリセットすることでサンプルベースの計画をサポートし、実システムトレースで観測された状態にリセットすることで、実データを使用したシミュレータのキャリブレーションを可能にする。
複雑なシミュレーターにおける状態リセットは、しばしば許されるが、非自明である:シミュレーターが潜伏変数(状態)を持ってくると、状態リセットは、観測可能な歴史、すなわち信念状態(Silver and Veness, 2010)が与えられた後部から潜伏状態のサンプリングを必要とする。
正確なサンプリングは不可能であることが多いが、多くの近似的信念状態サンプリング器が構築可能であり、シミュレータへのサンプリングアクセスのみを使用して、それらをどのように選択するかという疑問が提起される。
本稿では,本問題を一般的な条件分布選択タスクに還元し,サンプリング専用アクセス下での新しいアルゴリズムと解析手法を提案する。
この削減に基づいて、信念-状態選択問題では、潜在状態の条件分布を直接対象とする潜在状態ベース選択と、観測上の誘導分布を対象とする観察ベース選択という、2つの異なる定式化が認められる。
意外なことに、観測ベースの選択は最も自然なロールアウトメソッド(Single-Resetと呼ぶ)では失敗するかもしれませんが、従来の方法(Repeated-Resetと呼ぶ)では保証を享受しています。
分散シフトやサンプリングポリシの選択といった問題に関する議論とともに、この一見単純な問題において、アルゴリズムの選択、理論的ニュアンス、オープンな疑問の豊かな風景を明らかにした。
関連論文リスト
- Consistency of Selection Strategies for Fraud Detection [0.0]
我々は、保険業者が詐欺を捜査する主張をどう選ぶかを研究する。
これは一貫性のない学習につながる可能性があり、ランダムな代替案を提案する。
論文 参考訳(メタデータ) (2025-09-23T07:33:33Z) - Searching for a Hidden Markov Anomaly over Multiple Processes [13.582085518282849]
隠れマルコフモデル(ADHM)に基づく異常検出という新しいアルゴリズムを提案する。
ADHMは、蓄積された統計的証拠と隠れた国家に対する信条の更新に基づく調査戦略に適応する。
これは、広範囲なシミュレーションにおいて、既存の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-06-20T16:10:38Z) - Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。
このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。
本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Reliability analysis for non-deterministic limit-states using stochastic emulators [0.0]
本稿では、モデルに対する信頼性解析を導入し、その典型的な計算コストを下げるために適切な代理モデルを用いて対処する。
具体的には、最近導入された一般化モデルとカオス拡張に焦点を当てる。
まず、閉形式解を持つ解析関数を用いて、エミュレータが正しい解に収束することを実証する。
論文 参考訳(メタデータ) (2024-12-18T11:08:56Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Likelihood-Free Inference in State-Space Models with Unknown Dynamics [71.94716503075645]
本研究では、状態空間モデルにおいて、観測をシミュレートすることしかできず、遷移ダイナミクスが不明な潜在状態の推測と予測を行う手法を提案する。
本研究では,限られた数のシミュレーションで状態予測と状態予測を行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T12:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。