Fugu-MT 論文翻訳(概要): High Dimensional Decision Making, Upper and Lower Bounds

論文の概要: High Dimensional Decision Making, Upper and Lower Bounds

arxiv url: http://arxiv.org/abs/2105.00545v1
Date: Sun, 2 May 2021 20:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-04 13:52:35.062211
Title: High Dimensional Decision Making, Upper and Lower Bounds
Title（参考訳）: 高次元意思決定, 上下界と下界
Authors: Farzad Pourbabaee
Abstract要約: 新しい情報を取得する価値は、最大で期待されるユーティリティの前と後の情報取得の違いとして定義できます。私は(サブ)ガシアンプロセスとジェネリックチェーンの理論のツールを使用して、情報の期待値について$d to infty$として結果を見つけます。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A decision maker's utility depends on her action $a\in A \subset \mathbb{R}^d$ and the payoff relevant state of the world $\theta\in \Theta$. One can define the value of acquiring new information as the difference between the maximum expected utility pre- and post information acquisition. In this paper, I find asymptotic results on the expected value of information as $d \to \infty$, by using tools from the theory of (sub)-Guassian processes and generic chaining.
Abstract（参考訳）: 意思決定者の効用は、アクション $a\in A \subset \mathbb{R}^d$ と世界のペイオフ関連状態 $\theta\in \Theta$ に依存する。新しい情報を取得する価値は、期待される最大効用前とポスト情報獲得の差として定義できる。本稿では, (sub)-guassian process とgeneric chaining の理論のツールを用いて,情報の期待値が $d \to \infty$ となるという漸近的な結果を見出す。

関連論文リスト

Enjoying Non-linearity in Multinomial Logistic Bandits [56.28491566735463]
我々は,学習者が期待される報酬を最大化するために行動を選択することで,学習者が環境と相互作用する,多項ロジスティック・バンディット問題を考える。本稿では,ロジスティックモデルの非線形性の影響を多項集合に拡張し,効率的なアルゴリズムを提案する。我々のメソッドは、次数 $ smashwidetildemathcalO(R d sqrtKT/kappa_*)$ の問題依存的後悔境界を生じる。
論文参考訳（メタデータ） (2025-07-07T08:18:25Z)
Revisiting Step-Size Assumptions in Stochastic Approximation [1.3654846342364308]
この仮定は、収束とより微細な結果には必要ないことが初めて示される。標準アルゴリズムおよびPolyakとRuppertの平均化手法を用いて得られた推定値に対して収束率を求める。数値実験の結果,乗法雑音とマルコフ記憶の組み合わせにより,$beta_theta$が大きくなる可能性が示唆された。
論文参考訳（メタデータ） (2024-05-28T05:11:05Z)
Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文参考訳（メタデータ） (2024-05-24T11:22:19Z)
Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。 V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-19T01:09:24Z)
Fully-Dynamic Approximate Decision Trees With Worst-Case Update Time Guarantees [3.5509551353363644]
ラベル付き例の挿入と削除の任意の順序に近似的な決定木を保持する最初のアルゴリズムを与える。我々は$O!left(fracd, f(n)n operatornamenamepolyfrachepsilonright)$ Operations per updateを使って$epsilon$-approximate treeを維持する決定論的アルゴリズムを提供する。
論文参考訳（メタデータ） (2023-02-08T11:02:58Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
Nearly Optimal Algorithms for Level Set Estimation [21.83736847203543]
線形包帯に対する最近の適応的実験設計手法と関連づけることで, レベルセット推定問題に対する新しいアプローチを提案する。我々は、我々の境界がほぼ最適であることを示す。すなわち、我々の上限は、しきい値線形帯域に対して既存の下限と一致する。
論文参考訳（メタデータ） (2021-11-02T17:45:02Z)
Scaling Gaussian Processes with Derivative Information Using Variational Inference [17.746842802181256]
本稿では,変分推論を用いた導関数を用いた完全スケーラブルなガウス過程回帰を実現する手法を提案する。我々は,高次元ステラレータ融合回帰タスクから,Pubmed上のグラフ畳み込みニューラルネットワークのトレーニングまで,さまざまなタスクに対するアプローチの完全なスケーラビリティを実証する。
論文参考訳（メタデータ） (2021-07-08T18:23:59Z)
Rate-Distortion Analysis of Minimum Excess Risk in Bayesian Learning [15.544041797200045]
ベイズ学習における最小余剰リスク(MER)は、データから学ぶ際に達成可能な最小損失と、基礎となるパラメータ$W$が観測された場合に達成できる最小損失との差として定義される。我々は、これらの上界と下界の差に関する情報理論的境界を導出し、それらがMERに対して秩序的に厳密なレートを提供できることを示す。
論文参考訳（メタデータ） (2021-05-10T08:14:10Z)
Agnostic learning with unknown utilities [70.14742836006042]
現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。我々はこれを未知のユーティリティによる不可知学習として研究する。サンプルされた点のみのユーティリティを推定することで、よく一般化した決定関数を学習できることを示す。
論文参考訳（メタデータ） (2021-04-17T08:22:04Z)
Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文参考訳（メタデータ） (2021-02-17T18:54:08Z)
Learning to extrapolate using continued fractions: Predicting the critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文参考訳（メタデータ） (2020-11-27T04:57:40Z)
Consistent Structured Prediction with Max-Min Margin Markov Networks [84.60515484036239]
二項分類のためのマックスマージン法は、最大マージンマルコフネットワーク(M3N$)の名前で構造化予測設定まで拡張されている。我々は、学習問題を"max-min"マージンの定式化で定義し、結果のメソッドmax-minマージンマルコフネットワーク(M4N$)を命名することで、そのような制限を克服する。マルチクラス分類,順序回帰,シーケンス予測,ランキング実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-07-02T10:48:42Z)
On the Difference Between the Information Bottleneck and the Deep Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文参考訳（メタデータ） (2019-12-31T18:31:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。