論文の概要: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits
- arxiv url: http://arxiv.org/abs/2210.00025v4
- Date: Wed, 19 Mar 2025 13:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:21:10.606866
- Title: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits
- Title(参考訳): 人工リプレイ:バンド内の歴史的データを調和させるメタアルゴリズム
- Authors: Siddhartha Banerjee, Sean R. Sinclair, Milind Tambe, Lily Xu, Christina Lee Yu,
- Abstract要約: 履歴データを"ウォームスタート"のバンディットアルゴリズムにどのように組み込むかは、オープンな疑問である。
任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificialReplayを提案する。
ArtificialReplayは、完全なウォームスタートアプローチと比較して、履歴データのごく一部しか使用していないことを示す。
- 参考スコア(独自算出の注目度): 34.42192958753171
- License:
- Abstract: Most real-world deployments of bandit algorithms exist somewhere in between the offline and online set-up, where some historical data is available upfront and additional data is collected dynamically online. How best to incorporate historical data to "warm start" bandit algorithms is an open question: naively initializing reward estimates using all historical samples can suffer from spurious data and imbalanced data coverage, leading to data inefficiency (amount of historical data used) - particularly for continuous action spaces. To address these challenges, we propose ArtificialReplay, a meta-algorithm for incorporating historical data into any arbitrary base bandit algorithm. We show that ArtificialReplay uses only a fraction of the historical data compared to a full warm-start approach, while still achieving identical regret for base algorithms that satisfy independence of irrelevant data (IIData), a novel and broadly applicable property that we introduce. We complement these theoretical results with experiments on K-armed bandits and continuous combinatorial bandits, on which we model green security domains using real poaching data. Our results show the practical benefits of ArtificialReplay for improving data efficiency, including for base algorithms that do not satisfy IIData.
- Abstract(参考訳): 多くの実世界のバンディットアルゴリズムのデプロイは、オフラインとオンラインのセットアップの間どこかに存在し、いくつかの履歴データが事前に利用可能であり、追加データはオンラインで動的に収集される。
履歴データを"ウォームスタート(warm start)"バンディットアルゴリズムに組み込むのがいかにベストかは、オープンな疑問である。すべての歴史的なサンプルを使用して報酬の見積を素早い初期化することは、スパイラルなデータと不均衡なデータカバレッジに悩まされ、特に連続的なアクション空間において、データ非効率(使用される履歴データの量)につながる。
これらの課題に対処するために,任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificialReplayを提案する。
我々はArtificialReplayが,非関連データ(IIData)の独立性を満足するベースアルゴリズムに対して,まだ同じ後悔をしておりながら,完全なウォームスタートアプローチと比較して,履歴データのごく一部しか使用していないことを示す。
我々は、これらの理論結果を、実際のポーチデータを用いてグリーンセキュリティ領域をモデル化するK武装バンディットと連続組合せバンディットの実験で補完する。
この結果から,IIDataを満たさないベースアルゴリズムを含め,データ効率向上のためのArtificialReplayの実用的メリットが示された。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Data pruning and neural scaling laws: fundamental limitations of
score-based algorithms [9.68145635795782]
本研究では,高圧縮方式においてスコアベースデータプルーニングアルゴリズムがフェールする理由を理論的,実証的に示す。
本稿では,この高圧縮方式における既存のプルーニングアルゴリズムの性能を向上させるキャリブレーションプロトコルを提案する。
論文 参考訳(メタデータ) (2023-02-14T10:38:40Z) - Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。
この問題は、調査データを含む広範囲のアプリケーションで発生する。
後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:33:48Z) - Toeplitz Least Squares Problems, Fast Algorithms and Big Data [1.3535770763481905]
最近の2つのアルゴリズムは、大容量時系列データに自己回帰モデルを適用するためにランダム化された数値線形代数手法を適用している。
本研究では,これら2つの近似アルゴリズムの大規模合成データと実世界のデータの品質について検討・比較する。
両方のアルゴリズムは合成データセットに匹敵する結果を示すが、実世界の時系列データに適用するとLSARアルゴリズムはより堅牢であるように見える。
論文 参考訳(メタデータ) (2021-12-24T08:32:09Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。
本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。
この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2020-06-11T18:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。