Fugu-MT 論文翻訳(概要): Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits

論文の概要: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits

arxiv url: http://arxiv.org/abs/2210.00025v3
Date: Wed, 09 Oct 2024 21:48:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 23:34:40.841436
Title: Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits
Title（参考訳）: 人工リプレイ:バンド内の歴史的データを調和させるメタアルゴリズム
Authors: Siddhartha Banerjee, Sean R. Sinclair, Milind Tambe, Lily Xu, Christina Lee Yu,
Abstract要約: 任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificial-Replayを提案する。我々は,Artificial-Replayが履歴データのごく一部しか使用していないことを示す。
参考スコア（独自算出の注目度）: 34.42192958753171
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most real-world deployments of bandit algorithms exist somewhere in between the offline and online set-up, where some historical data is available upfront and additional data is collected dynamically online. How best to incorporate historical data to "warm start" bandit algorithms is an open question: naively initializing reward estimates using all historical samples can suffer from spurious data and imbalanced data coverage, leading to computation and storage issues-particularly for continuous action spaces. To address these challenges, we propose Artificial-Replay, a meta-algorithm for incorporating historical data into any arbitrary base bandit algorithm. We show that Artificial-Replay uses only a fraction of the historical data compared to a full warm-start approach, while still achieving identical regret for base algorithms that satisfy independence of irrelevant data (IIData), a novel and broadly applicable property that we introduce. We complement these theoretical results with experiments on (i) K-armed bandits and (ii) continuous combinatorial bandits, on which we model green security domains using real poaching data. Our results show the practical benefits of Artificial-Replayin reducing computation and space complexity, including for base algorithms that do not satisfy IIData.
Abstract（参考訳）: 多くの実世界のバンディットアルゴリズムのデプロイは、オフラインとオンラインのセットアップの間どこかに存在し、いくつかの履歴データが事前に利用可能であり、追加データはオンラインで動的に収集される。履歴データを"ウォームスタート(warm start)"バンディットアルゴリズムにどのように組み込むかは、オープンな疑問である。すべての歴史的なサンプルを使用して報酬推定を鼻で初期化すると、急激なデータと不均衡なデータカバレッジに悩まされ、特に連続的なアクション空間において、計算とストレージの問題が発生する。これらの課題に対処するために,任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificial-Replayを提案する。我々は,非関係なデータ(IIData)の独立性を満足するベースアルゴリズムに対して,まだ同じ後悔を犯しているにもかかわらず,その履歴データのごく一部しか利用していないことを示す。我々はこれらの理論結果を実験で補完する。 (i)K武装の盗賊 (II) 実際の密猟データを用いてグリーンセキュリティドメインをモデル化した連続組合せ包帯。この結果から,IIDataを満たさないベースアルゴリズムを含め,計算量や空間の複雑さを低減できる人工リプレインの実用的メリットが示された。

関連論文リスト

Invariance-Based Dynamic Regret Minimization [8.349786817840858]
我々は、時間とともに、リニアパラメータが報酬とコンテキストを接続する非定常線形帯域を考える。我々は、報酬モデルが定常成分と非定常成分に分解されると仮定して、変化に適応しつつ、歴史的データを活用することを提案する。
論文参考訳（メタデータ） (2026-03-04T08:47:02Z)
Frustratingly Easy Feature Reconstruction for Out-of-Distribution Detection [39.00123727894414]
アウト・オブ・ディストリビューション(OOD)検出は、モデルがトレーニングカテゴリ外のデータを識別するのに役立つ。機能ベースのポストホックメソッドは、ネットワークパラメータを変更することなく、機能空間におけるデータ差を評価することでこの問題に対処するが、トレーニングデータへのアクセスを必要とすることが多い。本稿では,部分空間投影の観点から,特徴再構成(ClaFR)と呼ばれる簡単なポストホック法を提案する。
論文参考訳（メタデータ） (2025-09-02T13:24:40Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [30.88999109835329]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文参考訳（メタデータ） (2024-04-16T05:29:14Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文参考訳（メタデータ） (2023-06-19T17:08:32Z)
Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。 GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文参考訳（メタデータ） (2023-06-15T13:01:16Z)
Data pruning and neural scaling laws: fundamental limitations of score-based algorithms [9.68145635795782]
本研究では,高圧縮方式においてスコアベースデータプルーニングアルゴリズムがフェールする理由を理論的,実証的に示す。本稿では,この高圧縮方式における既存のプルーニングアルゴリズムの性能を向上させるキャリブレーションプロトコルを提案する。
論文参考訳（メタデータ） (2023-02-14T10:38:40Z)
Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。この問題は、調査データを含む広範囲のアプリケーションで発生する。後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:33:48Z)
Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free Replay [52.251188477192336]
FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。データリプレイの採用は驚くほど好都合である,という実証的な結果を通じて示します。本研究では,実データにアクセスすることなく,ジェネレータによるデータ合成が可能なデータフリーリプレイを提案する。
論文参考訳（メタデータ） (2022-07-22T17:30:51Z)
Toeplitz Least Squares Problems, Fast Algorithms and Big Data [1.3535770763481905]
最近の2つのアルゴリズムは、大容量時系列データに自己回帰モデルを適用するためにランダム化された数値線形代数手法を適用している。本研究では,これら2つの近似アルゴリズムの大規模合成データと実世界のデータの品質について検討・比較する。両方のアルゴリズムは合成データセットに匹敵する結果を示すが、実世界の時系列データに適用するとLSARアルゴリズムはより堅牢であるように見える。
論文参考訳（メタデータ） (2021-12-24T08:32:09Z)
Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。 ASVspoof 2019データセットで実験が行われる。
論文参考訳（メタデータ） (2021-04-15T07:57:05Z)
Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文参考訳（メタデータ） (2020-06-11T18:48:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。