Fugu-MT 論文翻訳(概要): Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits

論文の概要: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits

arxiv url: http://arxiv.org/abs/2210.00025v1
Date: Fri, 30 Sep 2022 18:03:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 13:57:41.157762
Title: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits
Title（参考訳）: 人為的リプレイ: バンディットの履歴データを活用するメタアルゴリズム
Authors: Siddhartha Banerjee, Sean R. Sinclair, Milind Tambe, Lily Xu, Christina Lee Yu
Abstract要約: 歴史的データによる「ウォームスタート」は、帯域幅アルゴリズムの性能を大幅に向上させる。任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificial Replayを提案する。
参考スコア（独自算出の注目度）: 31.292045744171617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While standard bandit algorithms sometimes incur high regret, their performance can be greatly improved by "warm starting" with historical data. Unfortunately, how best to incorporate historical data is unclear: naively initializing reward estimates using all historical samples can suffer from spurious data and imbalanced data coverage, leading to computational and storage issues - particularly in continuous action spaces. We address these two challenges by proposing Artificial Replay, a meta-algorithm for incorporating historical data into any arbitrary base bandit algorithm. Artificial Replay uses only a subset of the historical data as needed to reduce computation and storage. We show that for a broad class of base algorithms that satisfy independence of irrelevant data (IIData), a novel property that we introduce, our method achieves equal regret as a full warm-start approach while potentially using only a fraction of the historical data. We complement these theoretical results with a case study of $K$-armed and continuous combinatorial bandit algorithms, including on a green security domain using real poaching data, to show the practical benefits of Artificial Replay in achieving optimal regret alongside low computational and storage costs.
Abstract（参考訳）: 標準的なバンディットアルゴリズムは時に後悔を招くことがあるが、その性能は歴史的データで「ウォームスタート」することで大幅に改善される。因果的にすべての過去のサンプルを使って報酬の見積を初期化することは、急激なデータと不均衡なデータカバレッジに悩まされ、特に連続的なアクション空間において、計算とストレージの問題を引き起こします。この2つの課題を,任意のベースバンディットアルゴリズムに履歴データを組み込むメタアルゴリズムであるartificial replayを提案することで解決する。 Artificial Replayは、計算とストレージの削減に必要な履歴データのサブセットのみを使用する。提案手法は,無関係データ(iidata)の独立性を満足する幅広い基本アルゴリズムのクラスに対して,過去のデータのうちほんの一部しか使用せず,完全なウォームスタートアプローチとして同等の後悔を達成できることを示す。そこで,本研究では,実演データを用いたグリーンセキュリティ領域を含む,k$-arm と連続的コンビネート型バンディットアルゴリズムのケーススタディを用いて,計算コストとストレージコストの低さとともに最適な後悔を達成するための人工再生の実用的効果を示す。

関連論文リスト

Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [30.88999109835329]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文参考訳（メタデータ） (2024-04-16T05:29:14Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文参考訳（メタデータ） (2023-06-19T17:08:32Z)
Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。 GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文参考訳（メタデータ） (2023-06-15T13:01:16Z)
Data pruning and neural scaling laws: fundamental limitations of score-based algorithms [9.68145635795782]
本研究では,高圧縮方式においてスコアベースデータプルーニングアルゴリズムがフェールする理由を理論的,実証的に示す。本稿では,この高圧縮方式における既存のプルーニングアルゴリズムの性能を向上させるキャリブレーションプロトコルを提案する。
論文参考訳（メタデータ） (2023-02-14T10:38:40Z)
Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。この問題は、調査データを含む広範囲のアプリケーションで発生する。後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:33:48Z)
Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free Replay [52.251188477192336]
FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。データリプレイの採用は驚くほど好都合である,という実証的な結果を通じて示します。本研究では,実データにアクセスすることなく,ジェネレータによるデータ合成が可能なデータフリーリプレイを提案する。
論文参考訳（メタデータ） (2022-07-22T17:30:51Z)
Toeplitz Least Squares Problems, Fast Algorithms and Big Data [1.3535770763481905]
最近の2つのアルゴリズムは、大容量時系列データに自己回帰モデルを適用するためにランダム化された数値線形代数手法を適用している。本研究では,これら2つの近似アルゴリズムの大規模合成データと実世界のデータの品質について検討・比較する。両方のアルゴリズムは合成データセットに匹敵する結果を示すが、実世界の時系列データに適用するとLSARアルゴリズムはより堅牢であるように見える。
論文参考訳（メタデータ） (2021-12-24T08:32:09Z)
Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。 ASVspoof 2019データセットで実験が行われる。
論文参考訳（メタデータ） (2021-04-15T07:57:05Z)
Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文参考訳（メタデータ） (2020-06-11T18:48:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。