論文の概要: Effective Dimension in Bandit Problems under Censorship
- arxiv url: http://arxiv.org/abs/2302.06916v1
- Date: Tue, 14 Feb 2023 09:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:54:25.379599
- Title: Effective Dimension in Bandit Problems under Censorship
- Title(参考訳): 検閲下のバンディット問題における有効次元
- Authors: Gauthier Guinet, Saurabh Amin, Patrick Jaillet
- Abstract要約: 検閲環境におけるマルチアームとコンテキストのバンディットの問題について検討する。
我々の目標は、非検閲環境向けに設計された古典的アルゴリズムの文脈における検閲による性能損失を推定することである。
- 参考スコア(独自算出の注目度): 22.269565708490468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study both multi-armed and contextual bandit problems in
censored environments. Our goal is to estimate the performance loss due to
censorship in the context of classical algorithms designed for uncensored
environments. Our main contributions include the introduction of a broad class
of censorship models and their analysis in terms of the effective dimension of
the problem -- a natural measure of its underlying statistical complexity and
main driver of the regret bound. In particular, the effective dimension allows
us to maintain the structure of the original problem at first order, while
embedding it in a bigger space, and thus naturally leads to results analogous
to uncensored settings. Our analysis involves a continuous generalization of
the Elliptical Potential Inequality, which we believe is of independent
interest. We also discover an interesting property of decision-making under
censorship: a transient phase during which initial misspecification of
censorship is self-corrected at an extra cost, followed by a stationary phase
that reflects the inherent slowdown of learning governed by the effective
dimension. Our results are useful for applications of sequential
decision-making models where the feedback received depends on strategic
uncertainty (e.g., agents' willingness to follow a recommendation) and/or
random uncertainty (e.g., loss or delay in arrival of information).
- Abstract(参考訳): 本稿では,検閲環境におけるマルチアームとコンテキスト的バンディットの問題について検討する。
我々の目標は、非検閲環境向けに設計された古典的アルゴリズムの文脈における検閲による性能損失を推定することである。
我々の主な貢献は、広範囲にわたる検閲モデルの導入と、問題の有効次元(その基礎となる統計的複雑さの自然な尺度と、後悔の限界の主要因)の観点からの分析である。
特に、有効次元は、より広い空間に埋め込んだまま、最初の問題の構造を一階に維持することができ、したがって自然に無検閲の設定に類似した結果をもたらす。
我々の分析は楕円ポテンシャル不等式を連続的に一般化することを含み、これは独立な関心事であると考えている。
また,検閲下での意思決定の興味深い性質を見出した。検閲の初回的誤特定を余分なコストで自己修正する過渡相と,有効次元に支配される学習の固有の緩慢さを反映した定常相である。
得られたフィードバックが戦略的不確実性(例えば、エージェントの推薦に従う意思)とランダム不確実性(例えば、情報の到着の損失や遅延)に依存するような逐次的意思決定モデルの応用に有用である。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Generalization Error Bounds for Learning under Censored Feedback [15.367801388932145]
学習理論からの一般化誤差は、以前に見つからなかったデータに対してアルゴリズムがどれだけうまく機能するかを統計的に保証する。
このような境界に対する検閲されたフィードバックによるデータ非IIDnessの影響を特徴付ける。
既存の一般化誤差境界がモデルの一般化保証を正しく捕捉できないことを示す。
論文 参考訳(メタデータ) (2024-04-14T13:17:32Z) - dugMatting: Decomposed-Uncertainty-Guided Matting [83.71273621169404]
そこで本稿では, 明確に分解された不確かさを探索し, 効率よく効率よく改善する, 分解不確実性誘導型マッチングアルゴリズムを提案する。
提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。
論文 参考訳(メタデータ) (2023-06-02T11:19:50Z) - Algorithmic Censoring in Dynamic Learning Systems [6.2952076725399975]
検閲を形式化し、その発生方法を示し、検出の難しさを強調します。
我々は、検閲に対する保護 - 規則とランダムな探索 - を考える。
結果として得られたテクニックにより、検閲されたグループの例がトレーニングデータに入力され、モデルを修正できる。
論文 参考訳(メタデータ) (2023-05-15T21:42:22Z) - From Contextual Data to Newsvendor Decisions: On the Actual Performance
of Data-Driven Algorithms [2.9603743540540357]
本研究では,過去のデータとの関連性と量が,データ駆動型ポリシーの性能に与える影響について検討する。
我々は,「密接な状況下で観察された過去の要求は,分布の密接な関係から生じると考える。
論文 参考訳(メタデータ) (2023-02-16T17:03:39Z) - CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。
本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。
私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文 参考訳(メタデータ) (2021-10-04T17:59:31Z) - A fuzzy-rough uncertainty measure to discover bias encoded explicitly or
implicitly in features of structured pattern classification datasets [0.0]
保護属性と非保護属性の相関によって定義された非保護特徴に暗黙的に符号化されたバイアスの存在について検討した。
境界領域の変化を最も捉えるファジィ演算子と距離関数を決定するために感度解析を行う。
論文 参考訳(メタデータ) (2021-08-20T10:27:32Z) - Embracing Uncertainty: Decoupling and De-bias for Robust Temporal
Grounding [23.571580627202405]
時間接地は、言語クエリによって、未トリミングビデオ内の時間境界をローカライズすることを目的としている。
クエリの不確実性とラベルの不確実性という2つのタイプの避けられない人間の不確実性の課題に直面しています。
人間の不確実性を受け入れる新しいDeNet(Decoupling and De-bias)を提案する。
論文 参考訳(メタデータ) (2021-03-31T07:00:56Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Robustness Threats of Differential Privacy [70.818129585404]
我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。
本研究では,勾配クリッピングや雑音付加などのニューラルネットワークトレーニングの主成分が,モデルの堅牢性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-12-14T18:59:24Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。