論文の概要: General Bayesian Policy Learning
- arxiv url: http://arxiv.org/abs/2602.23672v1
- Date: Fri, 27 Feb 2026 04:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.253792
- Title: General Bayesian Policy Learning
- Title(参考訳): 一般ベイズ政策学習
- Authors: Masahiro Kato,
- Abstract要約: 本研究では,政策学習のための一般ベイズフレームワークを提案する。
我々は,意思決定者が期待する福祉を最大化するための行動から行動を選択する決定問題を考察する。
- 参考スコア(独自算出の注目度): 6.44705221140412
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study proposes the General Bayes framework for policy learning. We consider decision problems in which a decision-maker chooses an action from an action set to maximize its expected welfare. Typical examples include treatment choice and portfolio selection. In such problems, the statistical target is a decision rule, and the prediction of each outcome $Y(a)$ is not necessarily of primary interest. We formulate this policy learning problem by loss-based Bayesian updating. Our main technical device is a squared-loss surrogate for welfare maximization. We show that maximizing empirical welfare over a policy class is equivalent to minimizing a scaled squared error in the outcome difference, up to a quadratic regularization controlled by a tuning parameter $ζ>0$. This rewriting yields a General Bayes posterior over decision rules that admits a Gaussian pseudo-likelihood interpretation. We clarify two Bayesian interpretations of the resulting generalized posterior, a working Gaussian view and a decision-theoretic loss-based view. As one implementation example, we introduce neural networks with tanh-squashed outputs. Finally, we provide theoretical guarantees in a PAC-Bayes style.
- Abstract(参考訳): 本研究では,政策学習のための一般ベイズフレームワークを提案する。
我々は,意思決定者が期待する福祉を最大化するための行動から行動を選択する決定問題を考察する。
典型的な例としては、治療の選択とポートフォリオの選択がある。
このような問題では、統計的対象は決定規則であり、各結果の$Y(a)$の予測は必ずしも第一の関心事であるとは限らない。
損失に基づくベイズ更新により、このポリシー学習問題を定式化する。
我々の主要な技術機器は、福祉の最大化のための四角いサロゲートです。
政策クラスに対する経験的福祉の最大化は、結果差のスケールされた2乗誤差を最小化することと同値であり、チューニングパラメータ$ >0$で制御される2次正規化までである。
この書き換えは、ガウスの擬似的な解釈を許容する決定規則に対して、ジェネラル・ベイズ (General Bayes) が後続する。
得られた一般化後続のベイズ的解釈,機能的ガウス的視点,決定論的損失に基づく視点の2つを明らかにする。
実装例の1つとして、タン・スクワッド出力を用いたニューラルネットワークを導入する。
最後に,PAC-Bayes方式の理論的保証を提供する。
関連論文リスト
- Effective Frontiers: A Unification of Neural Scaling Laws [19.808117554175013]
本稿では,学習課題を長期分布(Zipfian)のパターンのプログレッシブカバレッジとして抽象化する統合フレームワークを提案する。
我々は、$N$、$D$、$C$の正確なスケーリング法則を導き、それらがキャパシティ、カバレッジ、最適化のボトルネックに起因する。
論文 参考訳(メタデータ) (2026-02-01T10:44:46Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Thompson Exploration with Best Challenger Rule in Best Arm Identification [59.02170783023547]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Bayesian Exploration Networks [28.885750299203433]
本稿では,新しいベイズ的モデルフリーな定式化を導入し,モデルフリーなアプローチがベイズ最適政策をもたらすことを示す最初の分析を行った。
モデルフリーベイズ最適性に向けた第一歩として,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入し,ベルマン作用素のアレタリック不確実性(密度推定)とエピステマティック不確実性(変動推論)の両方をモデル化する。
完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。
論文 参考訳(メタデータ) (2023-08-24T19:35:58Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Differentiable Bandit Exploration [38.81737411000074]
我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
論文 参考訳(メタデータ) (2020-02-17T05:07:35Z) - Toward Optimal Adversarial Policies in the Multiplicative Learning
System with a Malicious Expert [87.12201611818698]
専門家のアドバイスを組み合わせて真の結果を予測する学習システムについて考察する。
専門家の一人が悪意があり、システムに最大損失を課すことを目指していると推測されている。
誤予測を常に報告する単純な欲求ポリシーは、近似比が1+O(sqrtfracln NN)$で最適であることを示す。
悪意のある専門家がその判断を適応的に行うことができるオンライン環境では、最適のオンラインポリシーを$O(N3)$で動的プログラムを解くことで効率的に計算できることが示される。
論文 参考訳(メタデータ) (2020-01-02T18:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。