論文の概要: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in
Bandits
- arxiv url: http://arxiv.org/abs/2210.00025v1
- Date: Fri, 30 Sep 2022 18:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:57:41.157762
- Title: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in
Bandits
- Title(参考訳): 人為的リプレイ: バンディットの履歴データを活用するメタアルゴリズム
- Authors: Siddhartha Banerjee, Sean R. Sinclair, Milind Tambe, Lily Xu,
Christina Lee Yu
- Abstract要約: 歴史的データによる「ウォームスタート」は、帯域幅アルゴリズムの性能を大幅に向上させる。
任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificial Replayを提案する。
- 参考スコア(独自算出の注目度): 31.292045744171617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While standard bandit algorithms sometimes incur high regret, their
performance can be greatly improved by "warm starting" with historical data.
Unfortunately, how best to incorporate historical data is unclear: naively
initializing reward estimates using all historical samples can suffer from
spurious data and imbalanced data coverage, leading to computational and
storage issues - particularly in continuous action spaces. We address these two
challenges by proposing Artificial Replay, a meta-algorithm for incorporating
historical data into any arbitrary base bandit algorithm. Artificial Replay
uses only a subset of the historical data as needed to reduce computation and
storage. We show that for a broad class of base algorithms that satisfy
independence of irrelevant data (IIData), a novel property that we introduce,
our method achieves equal regret as a full warm-start approach while
potentially using only a fraction of the historical data. We complement these
theoretical results with a case study of $K$-armed and continuous combinatorial
bandit algorithms, including on a green security domain using real poaching
data, to show the practical benefits of Artificial Replay in achieving optimal
regret alongside low computational and storage costs.
- Abstract(参考訳): 標準的なバンディットアルゴリズムは時に後悔を招くことがあるが、その性能は歴史的データで「ウォームスタート」することで大幅に改善される。
因果的にすべての過去のサンプルを使って報酬の見積を初期化することは、急激なデータと不均衡なデータカバレッジに悩まされ、特に連続的なアクション空間において、計算とストレージの問題を引き起こします。
この2つの課題を,任意のベースバンディットアルゴリズムに履歴データを組み込むメタアルゴリズムであるartificial replayを提案することで解決する。
Artificial Replayは、計算とストレージの削減に必要な履歴データのサブセットのみを使用する。
提案手法は,無関係データ(iidata)の独立性を満足する幅広い基本アルゴリズムのクラスに対して,過去のデータのうちほんの一部しか使用せず,完全なウォームスタートアプローチとして同等の後悔を達成できることを示す。
そこで,本研究では,実演データを用いたグリーンセキュリティ領域を含む,k$-arm と連続的コンビネート型バンディットアルゴリズムのケーススタディを用いて,計算コストとストレージコストの低さとともに最適な後悔を達成するための人工再生の実用的効果を示す。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Data pruning and neural scaling laws: fundamental limitations of
score-based algorithms [9.68145635795782]
本研究では,高圧縮方式においてスコアベースデータプルーニングアルゴリズムがフェールする理由を理論的,実証的に示す。
本稿では,この高圧縮方式における既存のプルーニングアルゴリズムの性能を向上させるキャリブレーションプロトコルを提案する。
論文 参考訳(メタデータ) (2023-02-14T10:38:40Z) - Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。
この問題は、調査データを含む広範囲のアプリケーションで発生する。
後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:33:48Z) - Toeplitz Least Squares Problems, Fast Algorithms and Big Data [1.3535770763481905]
最近の2つのアルゴリズムは、大容量時系列データに自己回帰モデルを適用するためにランダム化された数値線形代数手法を適用している。
本研究では,これら2つの近似アルゴリズムの大規模合成データと実世界のデータの品質について検討・比較する。
両方のアルゴリズムは合成データセットに匹敵する結果を示すが、実世界の時系列データに適用するとLSARアルゴリズムはより堅牢であるように見える。
論文 参考訳(メタデータ) (2021-12-24T08:32:09Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。
本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。
この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2020-06-11T18:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。