論文の概要: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in
Bandits
- arxiv url: http://arxiv.org/abs/2210.00025v1
- Date: Fri, 30 Sep 2022 18:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:57:41.157762
- Title: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in
Bandits
- Title(参考訳): 人為的リプレイ: バンディットの履歴データを活用するメタアルゴリズム
- Authors: Siddhartha Banerjee, Sean R. Sinclair, Milind Tambe, Lily Xu,
Christina Lee Yu
- Abstract要約: 歴史的データによる「ウォームスタート」は、帯域幅アルゴリズムの性能を大幅に向上させる。
任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificial Replayを提案する。
- 参考スコア(独自算出の注目度): 31.292045744171617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While standard bandit algorithms sometimes incur high regret, their
performance can be greatly improved by "warm starting" with historical data.
Unfortunately, how best to incorporate historical data is unclear: naively
initializing reward estimates using all historical samples can suffer from
spurious data and imbalanced data coverage, leading to computational and
storage issues - particularly in continuous action spaces. We address these two
challenges by proposing Artificial Replay, a meta-algorithm for incorporating
historical data into any arbitrary base bandit algorithm. Artificial Replay
uses only a subset of the historical data as needed to reduce computation and
storage. We show that for a broad class of base algorithms that satisfy
independence of irrelevant data (IIData), a novel property that we introduce,
our method achieves equal regret as a full warm-start approach while
potentially using only a fraction of the historical data. We complement these
theoretical results with a case study of $K$-armed and continuous combinatorial
bandit algorithms, including on a green security domain using real poaching
data, to show the practical benefits of Artificial Replay in achieving optimal
regret alongside low computational and storage costs.
- Abstract(参考訳): 標準的なバンディットアルゴリズムは時に後悔を招くことがあるが、その性能は歴史的データで「ウォームスタート」することで大幅に改善される。
因果的にすべての過去のサンプルを使って報酬の見積を初期化することは、急激なデータと不均衡なデータカバレッジに悩まされ、特に連続的なアクション空間において、計算とストレージの問題を引き起こします。
この2つの課題を,任意のベースバンディットアルゴリズムに履歴データを組み込むメタアルゴリズムであるartificial replayを提案することで解決する。
Artificial Replayは、計算とストレージの削減に必要な履歴データのサブセットのみを使用する。
提案手法は,無関係データ(iidata)の独立性を満足する幅広い基本アルゴリズムのクラスに対して,過去のデータのうちほんの一部しか使用せず,完全なウォームスタートアプローチとして同等の後悔を達成できることを示す。
そこで,本研究では,実演データを用いたグリーンセキュリティ領域を含む,k$-arm と連続的コンビネート型バンディットアルゴリズムのケーススタディを用いて,計算コストとストレージコストの低さとともに最適な後悔を達成するための人工再生の実用的効果を示す。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Data pruning and neural scaling laws: fundamental limitations of
score-based algorithms [9.68145635795782]
本研究では,高圧縮方式においてスコアベースデータプルーニングアルゴリズムがフェールする理由を理論的,実証的に示す。
本稿では,この高圧縮方式における既存のプルーニングアルゴリズムの性能を向上させるキャリブレーションプロトコルを提案する。
論文 参考訳(メタデータ) (2023-02-14T10:38:40Z) - A Bayesian Robust Regression Method for Corrupted Data Reconstruction [5.298637115178182]
我々は適応的敵攻撃に抵抗できる効果的なロバスト回帰法を開発した。
まず TRIP (hard Thresholding approach to Robust regression with sImple Prior) アルゴリズムを提案する。
次に、より堅牢なBRHT (robust Bayesian Reweighting regression via Hard Thresholding) アルゴリズムを構築するためにベイズ再重み付け(Bayesian reweighting)というアイデアを用いる。
論文 参考訳(メタデータ) (2022-12-24T17:25:53Z) - Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。
この問題は、調査データを含む広範囲のアプリケーションで発生する。
後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:33:48Z) - Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free
Replay [52.251188477192336]
FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。
データリプレイの採用は驚くほど好都合である,という実証的な結果を通じて示します。
本研究では,実データにアクセスすることなく,ジェネレータによるデータ合成が可能なデータフリーリプレイを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:30:51Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。