論文の概要: Combining Offline Causal Inference and Online Bandit Learning for Data
Driven Decision
- arxiv url: http://arxiv.org/abs/2001.05699v2
- Date: Sat, 7 Nov 2020 13:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 23:46:24.897031
- Title: Combining Offline Causal Inference and Online Bandit Learning for Data
Driven Decision
- Title(参考訳): データ駆動決定のためのオフライン因果推論とオンライン帯域学習を組み合わせる
- Authors: Li Ye, Yishi Lin, Hong Xie, John C.S. Lui
- Abstract要約: 現在、多くの企業がオンラインA/Bテストを通じて意思決定を行っているが、テスト中の誤った決定はユーザーの経験を損なう。
典型的な方法はオフライン因果推論で、ログ化されたデータのみを分析して意思決定する。
オフライン因果推論アルゴリズムとオンライン学習アルゴリズムを統合するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.67411027502375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental question for companies with large amount of logged data is: How
to use such logged data together with incoming streaming data to make good
decisions? Many companies currently make decisions via online A/B tests, but
wrong decisions during testing hurt users' experiences and cause irreversible
damage. A typical alternative is offline causal inference, which analyzes
logged data alone to make decisions. However, these decisions are not adaptive
to the new incoming data, and so a wrong decision will continuously hurt users'
experiences. To overcome the aforementioned limitations, we propose a framework
to unify offline causal inference algorithms (e.g., weighting, matching) and
online learning algorithms (e.g., UCB, LinUCB). We propose novel algorithms and
derive bounds on the decision accuracy via the notion of "regret". We derive
the first upper regret bound for forest-based online bandit algorithms.
Experiments on two real datasets show that our algorithms outperform other
algorithms that use only logged data or online feedbacks, or algorithms that do
not use the data properly.
- Abstract(参考訳): 大量のログデータを持つ企業にとっての基本的な疑問は、次のようなものだ。
現在、多くの企業がオンラインA/Bテストを通じて意思決定を行っているが、テスト中の間違った決定はユーザの経験を損ね、不可逆的なダメージを引き起こす。
典型的な選択肢はオフライン因果推論で、ログデータのみを分析して意思決定する。
しかし、これらの決定は新しいデータに適応できないため、誤った判断はユーザーの体験を損なうことになる。
上記の制限を克服するため、オフライン因果推論アルゴリズム(重み付け、マッチングなど)とオンライン学習アルゴリズム(UCB、LinUCBなど)を統合するためのフレームワークを提案する。
本稿では,新しいアルゴリズムを提案し,"regret"という概念を用いて決定精度を導出する。
森林をベースとしたオンラインバンディットアルゴリズムに初めて後悔する。
2つの実際のデータセットの実験では、当社のアルゴリズムは、ログデータやオンラインフィードバックのみを使用するアルゴリズム、あるいはデータを適切に使用していないアルゴリズムよりも優れています。
関連論文リスト
- Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Inference of Causal Networks using a Topological Threshold [0.10241134756773226]
本稿では,因果関係しきい値を自動的に決定する制約に基づくアルゴリズムを提案する。
このアルゴリズムは一般にPCアルゴリズムよりも高速で精度が高いことを示す。
論文 参考訳(メタデータ) (2024-04-21T21:56:39Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale [27.02990488317357]
不完全な専門家によるオフラインのデモンストレーションデータセットを前提として、MDPのオンライン学習パフォーマンスをブートストラップする上で、それを活用するための最善の方法は何か?
Informed Posterior Sampling-based RL (iPSRL)アルゴリズムを最初に提案する。
このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T18:16:25Z) - Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:29:04Z) - Deep Policies for Online Bipartite Matching: A Reinforcement Learning
Approach [5.683591363967851]
本稿では,過去のデータに対する試行錯誤に基づく適切な対応策を導出するためのエンドツーエンド強化学習フレームワークを提案する。
学習手法の大部分は,4つの合成および実世界のデータセットにおいて,古典的なグリーディアルゴリズムよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T18:04:19Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。
本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。
この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2020-06-11T18:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。