論文の概要: Dynamic Decision-Making under Model Misspecification: A Stochastic Stability Approach
- arxiv url: http://arxiv.org/abs/2602.17086v1
- Date: Thu, 19 Feb 2026 05:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.705096
- Title: Dynamic Decision-Making under Model Misspecification: A Stochastic Stability Approach
- Title(参考訳): モデルミス種別に基づく動的決定-確率的安定性アプローチ
- Authors: Xinyu Dai, Daniel Chen, Yian Qian,
- Abstract要約: モデルクラスが誤特定された場合に,最もよく用いられるベイズ強化学習アルゴリズムであるトンプソンサンプリングの挙動について検討する。
まず,不特定二本腕ガウス帯状体における後部進化の完全な動的分類について述べる。
次に解析を一般有限モデルクラスに拡張し、統一マルコフフレームワークを開発する。
- 参考スコア(独自算出の注目度): 17.087471640760885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic decision-making under model uncertainty is central to many economic environments, yet existing bandit and reinforcement learning algorithms rely on the assumption of correct model specification. This paper studies the behavior and performance of one of the most commonly used Bayesian reinforcement learning algorithms, Thompson Sampling (TS), when the model class is misspecified. We first provide a complete dynamic classification of posterior evolution in a misspecified two-armed Gaussian bandit, identifying distinct regimes: correct model concentration, incorrect model concentration, and persistent belief mixing, characterized by the direction of statistical evidence and the model-action mapping. These regimes yield sharp predictions for limiting beliefs, action frequencies, and asymptotic regret. We then extend the analysis to a general finite model class and develop a unified stochastic stability framework that represents posterior evolution as a Markov process on the belief simplex. This approach characterizes two sufficient conditions to classify the ergodic and transient behaviors and provides inductive dimensional reductions of the posterior dynamics. Our results offer the first qualitative and geometric classification of TS under misspecification, bridging Bayesian learning with evolutionary dynamics, and also build the foundations of robust decision-making in structured bandits.
- Abstract(参考訳): モデル不確実性の下での動的意思決定は多くの経済環境の中心であるが、既存の帯域幅と強化学習アルゴリズムは正しいモデル仕様の仮定に依存している。
本稿では,モデルクラスが不明確である場合に,最もよく使用されるベイズ強化学習アルゴリズムであるトンプソンサンプリング(TS)の挙動と性能について検討する。
まず, 正確なモデル濃度, 不正確なモデル濃度, 持続的信念混合, 統計的証拠の方向とモデル-アクションマッピングを特徴とする, 異なる状態のガウス・バンディットにおける後部進化の完全な動的分類について述べる。
これらの体制は、信念、行動頻度、および漸近的後悔を制限するための鋭い予測をもたらす。
次に、解析を一般有限モデルクラスに拡張し、信念の単純性上のマルコフ過程として後続進化を表す統一確率安定性フレームワークを開発する。
このアプローチはエルゴード的挙動と過渡的挙動を分類するのに十分な2つの条件を特徴づけ、後続力学の帰納的次元的還元を与える。
この結果は,不特定性の下でのTSの定性的および幾何学的分類,進化力学によるベイズ学習のブリッジ化,および構造化バンディットにおけるロバストな意思決定の基礎を構築した。
関連論文リスト
- On Forgetting and Stability of Score-based Generative models [6.259598237089842]
生成モデルの安定性と長時間の挙動を理解することは、現代の機械学習における根本的な問題である。
本稿では, スコアベース生成モデルのサンプリング誤差について, 安定性を活用し, 逆時間力学に関連したマルコフ連鎖の性質を忘れることにより定量的に考察する。
論文 参考訳(メタデータ) (2026-01-29T15:37:50Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Stochastic dynamics learning with state-space systems [5.248564173595025]
この研究は、フェージングメモリとエコー状態特性(ESP)の統一処理を提供することにより、貯水池コンピューティング(RC)の理論基盤を前進させる。
時系列学習における中心的なモデルクラスである状態空間システムについて検討し,ESPがなくても,記憶の低下と解安定性が全般的に維持されることを示す。
論文 参考訳(メタデータ) (2025-08-11T11:49:01Z) - Pre-Trained AI Model Assisted Online Decision-Making under Missing Covariates: A Theoretical Perspective [12.160708336715489]
「モデル弾力性」は、モデル計算による後悔を特徴付ける統一的な方法である。
ランダム(MAR)環境下では,事前学習したモデルの逐次校正が可能であることを示す。
本分析では、逐次意思決定タスクにおいて、正確な事前学習モデルを持つことの実用的価値を強調した。
論文 参考訳(メタデータ) (2025-07-10T15:33:27Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Dynamic ensemble selection based on Deep Neural Network Uncertainty
Estimation for Adversarial Robustness [7.158144011836533]
本研究では,動的アンサンブル選択技術を用いてモデルレベルの動的特性について検討する。
トレーニング段階では、ディリクレ分布はサブモデルの予測分布の先行として適用され、パラメータ空間における多様性制約が導入された。
テストフェーズでは、最終的な予測のための不確かさ値のランクに基づいて、特定のサブモデルが動的に選択される。
論文 参考訳(メタデータ) (2023-08-01T07:41:41Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - Uncertainty estimation under model misspecification in neural network
regression [3.2622301272834524]
モデル選択が不確実性評価に与える影響について検討する。
モデルミスセグメンテーションでは,アレータリック不確実性は適切に捉えられていない。
論文 参考訳(メタデータ) (2021-11-23T10:18:41Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。