論文の概要: High Dimensional Decision Making, Upper and Lower Bounds
- arxiv url: http://arxiv.org/abs/2105.00545v1
- Date: Sun, 2 May 2021 20:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:52:35.062211
- Title: High Dimensional Decision Making, Upper and Lower Bounds
- Title(参考訳): 高次元意思決定, 上下界と下界
- Authors: Farzad Pourbabaee
- Abstract要約: 新しい情報を取得する価値は、最大で期待されるユーティリティの前と後の情報取得の違いとして定義できます。
私は(サブ)ガシアンプロセスとジェネリックチェーンの理論のツールを使用して、情報の期待値について$d to infty$として結果を見つけます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A decision maker's utility depends on her action $a\in A \subset
\mathbb{R}^d$ and the payoff relevant state of the world $\theta\in \Theta$.
One can define the value of acquiring new information as the difference between
the maximum expected utility pre- and post information acquisition. In this
paper, I find asymptotic results on the expected value of information as $d \to
\infty$, by using tools from the theory of (sub)-Guassian processes and generic
chaining.
- Abstract(参考訳): 意思決定者の効用は、アクション $a\in A \subset \mathbb{R}^d$ と世界のペイオフ関連状態 $\theta\in \Theta$ に依存する。
新しい情報を取得する価値は、期待される最大効用前とポスト情報獲得の差として定義できる。
本稿では, (sub)-guassian process とgeneric chaining の理論のツールを用いて,情報の期待値が $d \to \infty$ となるという漸近的な結果を見出す。
関連論文リスト
- Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Fully-Dynamic Approximate Decision Trees With Worst-Case Update Time
Guarantees [3.5509551353363644]
ラベル付き例の挿入と削除の任意の順序に近似的な決定木を保持する最初のアルゴリズムを与える。
我々は$O!left(fracd, f(n)n operatornamenamepolyfrachepsilonright)$ Operations per updateを使って$epsilon$-approximate treeを維持する決定論的アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-02-08T11:02:58Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Nearly Optimal Algorithms for Level Set Estimation [21.83736847203543]
線形包帯に対する最近の適応的実験設計手法と関連づけることで, レベルセット推定問題に対する新しいアプローチを提案する。
我々は、我々の境界がほぼ最適であることを示す。すなわち、我々の上限は、しきい値線形帯域に対して既存の下限と一致する。
論文 参考訳(メタデータ) (2021-11-02T17:45:02Z) - Scaling Gaussian Processes with Derivative Information Using Variational
Inference [17.746842802181256]
本稿では,変分推論を用いた導関数を用いた完全スケーラブルなガウス過程回帰を実現する手法を提案する。
我々は,高次元ステラレータ融合回帰タスクから,Pubmed上のグラフ畳み込みニューラルネットワークのトレーニングまで,さまざまなタスクに対するアプローチの完全なスケーラビリティを実証する。
論文 参考訳(メタデータ) (2021-07-08T18:23:59Z) - Rate-Distortion Analysis of Minimum Excess Risk in Bayesian Learning [15.544041797200045]
ベイズ学習における最小余剰リスク(MER)は、データから学ぶ際に達成可能な最小損失と、基礎となるパラメータ$W$が観測された場合に達成できる最小損失との差として定義される。
我々は、これらの上界と下界の差に関する情報理論的境界を導出し、それらがMERに対して秩序的に厳密なレートを提供できることを示す。
論文 参考訳(メタデータ) (2021-05-10T08:14:10Z) - Agnostic learning with unknown utilities [70.14742836006042]
現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。
我々はこれを未知のユーティリティによる不可知学習として研究する。
サンプルされた点のみのユーティリティを推定することで、よく一般化した決定関数を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-17T08:22:04Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Consistent Structured Prediction with Max-Min Margin Markov Networks [84.60515484036239]
二項分類のためのマックスマージン法は、最大マージンマルコフネットワーク(M3N$)の名前で構造化予測設定まで拡張されている。
我々は、学習問題を"max-min"マージンの定式化で定義し、結果のメソッドmax-minマージンマルコフネットワーク(M4N$)を命名することで、そのような制限を克服する。
マルチクラス分類,順序回帰,シーケンス予測,ランキング実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-02T10:48:42Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。