論文の概要: Memory-Constrained No-Regret Learning in Adversarial Bandits
- arxiv url: http://arxiv.org/abs/2002.11804v2
- Date: Tue, 6 Apr 2021 08:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 14:24:21.952932
- Title: Memory-Constrained No-Regret Learning in Adversarial Bandits
- Title(参考訳): 逆行性バンディットにおけるメモリ制約型非リグレット学習
- Authors: Xiao Xu, Qing Zhao
- Abstract要約: アーム数の観点からは、メモリ空間のサブ線形順序のみを必要とする階層的学習ポリシーを開発する。
時間の地平線に関するサブリニアな後悔命令は、弱い後悔とシフトする後悔の両方のために確立される。
この研究は、メモリ制限付きバンディット問題における最初のものである。
- 参考スコア(独自算出の注目度): 12.111429383532888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An adversarial bandit problem with memory constraints is studied where only
the statistics of a subset of arms can be stored. A hierarchical learning
policy that requires only a sublinear order of memory space in terms of the
number of arms is developed. Its sublinear regret orders with respect to the
time horizon are established for both weak regret and shifting regret. This
work appears to be the first on memory-constrained bandit problems under the
adversarial setting.
- Abstract(参考訳): メモリ制約のある逆のバンドイット問題は、アームのサブセットの統計のみを格納できる場所で研究される。
アーム数の観点からは、メモリ空間のサブ線形順序のみを必要とする階層的学習ポリシーを開発する。
時間の地平線に関するサブリニアな後悔命令は、弱い後悔とシフトする後悔の両方のために確立される。
この研究は、メモリ制限付きバンディット問題における最初のものである。
関連論文リスト
- What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - One Arrow, Two Kills: An Unified Framework for Achieving Optimal Regret
Guarantees in Sleeping Bandits [29.896865106960423]
本稿では,emphSleeping Bandits における emphInternal Regret' の問題に対処する。
我々は, 完全に逆の損失と有効性の連続であっても, その尺度においてサブ線形後悔をもたらすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-26T19:40:06Z) - Towards Differential Relational Privacy and its use in Question
Answering [109.4452196071872]
データセット内のエンティティ間の関係の記憶は、トレーニングされた質問応答モデルを使用する場合、プライバシの問題につながる可能性がある。
我々はこの現象を定量化し、微分プライバシー(DPRP)の定義を可能にする。
質問回答のための大規模モデルを用いた実験において,概念を解説する。
論文 参考訳(メタデータ) (2022-03-30T22:59:24Z) - Learning what to remember [9.108546206438218]
本稿では,学習者が絶え間ない事実の流れに直面する生涯学習シナリオについて考察し,その記憶に保持すべきものを決定する。
オンライン学習フレームワークに基づく数学的モデルを導入し、学習者は記憶に制約のある専門家の集合に対して自己測定を行う。
このメモリ制約のあるシナリオにおいて乗算重み更新アルゴリズムを用いることの難しさを特定し、後悔の保証が最良に近い代替スキームを設計する。
論文 参考訳(メタデータ) (2022-01-11T06:42:50Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。