論文の概要: Sharp bounds on the price of bandit feedback for several models of
mistake-bounded online learning
- arxiv url: http://arxiv.org/abs/2209.01366v1
- Date: Sat, 3 Sep 2022 08:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 15:39:14.839752
- Title: Sharp bounds on the price of bandit feedback for several models of
mistake-bounded online learning
- Title(参考訳): Sharpは、ミスバウンドオンライン学習のいくつかのモデルに対する盗聴フィードバックの価格に縛られる
- Authors: Raymond Feng, Jesse Geneson, Andrew Lee, and Espen Slettnes
- Abstract要約: ミスバウンドモデルのいくつかの変種に対して,帯域幅フィードバックの価格に強い限界を証明した。
論文の第1部では、$r$入出力弱強化モデルと$r$入出力遅延無曖昧強化モデルに関するバウンダリを提示する。
本論文の第2部では,置換パターンを用いたオンライン学習モデルについて紹介する。
- 参考スコア(独自算出の注目度): 3.9947384312174705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We determine sharp bounds on the price of bandit feedback for several
variants of the mistake-bound model. The first part of the paper presents
bounds on the $r$-input weak reinforcement model and the $r$-input delayed,
ambiguous reinforcement model. In both models, the adversary gives $r$ inputs
in each round and only indicates a correct answer if all $r$ guesses are
correct. The only difference between the two models is that in the delayed,
ambiguous model, the learner must answer each input before receiving the next
input of the round, while the learner receives all $r$ inputs at once in the
weak reinforcement model. In the second part of the paper, we introduce models
for online learning with permutation patterns, in which a learner attempts to
learn a permutation from a set of permutations by guessing statistics related
to sub-permutations. For these permutation models, we prove sharp bounds on the
price of bandit feedback.
- Abstract(参考訳): 誤り境界モデルのいくつかの変種に対する帯域フィードバックの価格の急激な境界を決定する。
論文の最初の部分は、$r$-input weak reinforcement modelと$r$-input delay, ambiguous reinforcement modelの境界を示している。
どちらのモデルでも、敵は各ラウンドに$r$の入力を与え、$r$の推測が正しい場合のみ正しい答えを示す。
2つのモデルの唯一の違いは、遅れてあいまいなモデルでは、学習者はラウンドの次の入力を受け取る前に各入力に答えなければならず、一方学習者は弱い強化モデルで一度にすべての$r$入力を受け取る。
本論文の第2部では,置換パターンを用いたオンライン学習モデルを紹介し,サブ置換に関する統計を推測することで,置換の集合から置換を学習しようとする。
これらの置換モデルでは、バンドイットフィードバックの価格の急な限界が証明される。
関連論文リスト
- Knockout: A simple way to handle missing inputs [8.05324050767023]
リッチなインプットを利用するモデルは、推論時にいくつかのインプットが欠落している可能性があるため、広くデプロイすることは困難である。
この問題に対する現在の一般的な解決策には、余剰化、計算、複数のモデルのトレーニングがある。
完全入力と限界分布を用いて条件分布を効率よく学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T19:47:34Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - Model Selection for Generic Contextual Bandits [20.207989166682832]
適応文脈帯域(tt Family ACB)と呼ばれる改良型アルゴリズムを提案する。
我々は、このアルゴリズムが適応的であること、すなわち、リットレートが任意の証明可能な文脈帯域幅アルゴリズムと整合していることを証明する。
また,真のモデルクラスを知らないにもかかわらず,ETCスタイルのアルゴリズムでも同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2021-07-07T19:35:31Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - How do Decisions Emerge across Layers in Neural Models? Interpretation
with Differentiable Masking [70.92463223410225]
DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。
入力トークンを包含または無視する決定は、中間隠蔽層に基づく単純なモデルで行われる。
これにより、属性のヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。
論文 参考訳(メタデータ) (2020-04-30T17:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。