論文の概要: Duality and Policy Evaluation in Distributionally Robust Bayesian Diffusion Control
- arxiv url: http://arxiv.org/abs/2506.19294v1
- Date: Tue, 24 Jun 2025 03:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.481854
- Title: Duality and Policy Evaluation in Distributionally Robust Bayesian Diffusion Control
- Title(参考訳): 分散ロバストベイズ拡散制御における双対性と政策評価
- Authors: Jose Blanchet, Jiayi Cheng, Hao Liu, Yang Liu,
- Abstract要約: 予測端末数値ユーティリティの拡散制御問題について考察する。
コントローラは、基礎となる拡散の未知のドリフトに事前分布を課す。
実際には、前者は一般的に誤って指定され、モデルの誤特定の程度は、政策のパフォーマンスに重大な影響を与える可能性がある。
本稿では, ベースラインの分岐近傍で事前選択した相手に対して, コントローラがゲームをする, 分布的に堅牢なベイズ制御(DRBC)の定式化を導入する。
- 参考スコア(独自算出の注目度): 8.863520091178335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a Bayesian diffusion control problem of expected terminal utility maximization. The controller imposes a prior distribution on the unknown drift of an underlying diffusion. The Bayesian optimal control, tracking the posterior distribution of the unknown drift, can be characterized explicitly. However, in practice, the prior will generally be incorrectly specified, and the degree of model misspecification can have a significant impact on policy performance. To mitigate this and reduce overpessimism, we introduce a distributionally robust Bayesian control (DRBC) formulation in which the controller plays a game against an adversary who selects a prior in divergence neighborhood of a baseline prior. The adversarial approach has been studied in economics and efficient algorithms have been proposed in static optimization settings. We develop a strong duality result for our DRBC formulation. Combining these results together with tools from stochastic analysis, we are able to derive a loss that can be efficiently trained (as we demonstrate in our numerical experiments) using a suitable neural network architecture. As a result, we obtain an effective algorithm for computing the DRBC optimal strategy. The methodology for computing the DRBC optimal strategy is greatly simplified, as we show, in the important case in which the adversary chooses a prior from a Kullback-Leibler distributional uncertainty set.
- Abstract(参考訳): ベイズ拡散制御問題を考える。
コントローラは、基礎となる拡散の未知のドリフトに事前分布を課す。
未知の漂流の後方分布を追跡するベイズ最適制御は、明確に特徴付けられる。
しかし、実際には、前者は一般的に誤って特定され、モデルの誤特定の程度は、政策のパフォーマンスに重大な影響を及ぼす可能性がある。
これを緩和し、過ペシミズムを低減するため、ベースラインの分岐近傍を予め選択した相手に対して、コントローラがゲームをする分布的に堅牢なベイズ制御(DRBC)の定式化を導入する。
逆のアプローチは、静的最適化設定において、経済学や効率的なアルゴリズムで研究されている。
DRBCの定式化に強い双対性を求める。
これらの結果と確率解析のツールを組み合わせることで、適切なニューラルネットワークアーキテクチャを用いて(数値実験で実証したように)効率的にトレーニング可能な損失を導き出すことができます。
その結果, DRBC最適戦略の計算に有効なアルゴリズムが得られた。
DRBC最適戦略を計算するための方法論は、Kulback-Leibler分布の不確実性集合から前者を選択する重要な場合において、非常に単純化されている。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Risk-Controlling Model Selection via Guided Bayesian Optimization [35.53469358591976]
他の競合するメトリクスに対して有用でありながら、特定のリスクに対するユーザ指定の制限に固執する構成を見つけます。
提案手法は,指定された関心領域に属する最適構成の集合を同定する。
提案手法は,低誤差率,等式予測,スプリアス相関処理,生成モデルにおける速度と歪みの管理,計算コストの削減など,複数のデシダラタを用いたタスクに対する有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T07:29:44Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - A Distributionally Robust Approach to Regret Optimal Control using the
Wasserstein Distance [1.8876415010297893]
因果線形乱れフィードバック制御器は最悪の場合の後悔を最小限に抑えるように設計されていることを示す。
トラクタブル半確定プログラムとしてミニマックス後悔最適制御問題の再構成を導出する。
我々は,ミニマックス・後悔最適制御設計法と分布論的にロバストな最適制御法との比較を行った。
論文 参考訳(メタデータ) (2023-04-13T19:10:06Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - Distributionally Robust Bayesian Optimization [121.71766171427433]
そこで本研究では,ゼロ次雑音最適化のための分散ロバストなベイズ最適化アルゴリズム(DRBO)を提案する。
提案アルゴリズムは, 種々の設定において, 線形に頑健な後悔を確実に得る。
提案手法は, 実世界のベンチマークと実世界のベンチマークの両方において, 頑健な性能を示す。
論文 参考訳(メタデータ) (2020-02-20T22:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。