論文の概要: Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible
Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2008.07146v5
- Date: Tue, 26 Oct 2021 08:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 02:58:17.044767
- Title: Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible
Off-Policy Evaluation
- Title(参考訳): Open Bandit Dataset and Pipeline: 現実的で再現可能なオフポリティ評価を目指して
- Authors: Yuta Saito, Shunsuke Aihara, Megumi Matsutani, Yusuke Narita
- Abstract要約: オフ政治評価(OPE)は、異なる政策によって生成されたデータを用いて仮説的政策のパフォーマンスを推定することを目的としている。
しかし、OPEの評価を可能にする現実世界のパブリックデータセットは存在しない。
大規模なeコマースプラットフォームであるZOZOTOWN上で収集した,公開ログ付きバンディットデータセットであるOpen Banditデータセットを提案する。
- 参考スコア(独自算出の注目度): 10.135719343010178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) aims to estimate the performance of hypothetical
policies using data generated by a different policy. Because of its huge
potential impact in practice, there has been growing research interest in this
field. There is, however, no real-world public dataset that enables the
evaluation of OPE, making its experimental studies unrealistic and
irreproducible. With the goal of enabling realistic and reproducible OPE
research, we present Open Bandit Dataset, a public logged bandit dataset
collected on a large-scale fashion e-commerce platform, ZOZOTOWN. Our dataset
is unique in that it contains a set of multiple logged bandit datasets
collected by running different policies on the same platform. This enables
experimental comparisons of different OPE estimators for the first time. We
also develop Python software called Open Bandit Pipeline to streamline and
standardize the implementation of batch bandit algorithms and OPE. Our open
data and software will contribute to fair and transparent OPE research and help
the community identify fruitful research directions. We provide extensive
benchmark experiments of existing OPE estimators using our dataset and
software. The results open up essential challenges and new avenues for future
OPE research.
- Abstract(参考訳): オフ政治評価(OPE)は、異なる政策によって生成されたデータを用いて仮説的政策のパフォーマンスを推定することを目的としている。
実際に大きな影響を与える可能性があるため、この分野では研究の関心が高まっている。
しかし、OPEの評価を可能にする現実世界のパブリックデータセットは存在せず、実験的な研究は非現実的で再現不可能である。
現実的で再現可能なOPEリサーチの実現を目的として,大規模なeコマースプラットフォームであるZOZOTOWN上で収集された公開ログ付きバンディットデータセットであるOpen Bandit Datasetを提案する。
私たちのデータセットは、同じプラットフォーム上で異なるポリシーを実行することで収集された複数のログ付きbanditデータセットを含むという点でユニークです。
これにより、初めて異なるOPE推定器の実験的比較が可能になる。
バッチバンディットアルゴリズムとopeの実装を合理化し、標準化するために、open bandit pipelineと呼ばれるpythonソフトウェアも開発した。
オープンデータとソフトウェアは、公正で透明なOPE研究に寄与し、コミュニティが実りある研究の方向性を特定するのに役立つでしょう。
我々はデータセットとソフトウェアを用いて既存のOPE推定器のベンチマーク実験を行った。
今後のOPE研究に不可欠な課題と新たな道を開く。
関連論文リスト
- Survey on Datasets for Perception in Unstructured Outdoor Environments [0.0]
フィールドロボティクスにおける共通認識タスクのためのデータセットに焦点を当てる。
この調査は、利用可能な研究データセットを分類し、比較する。
我々は、非構造化屋外環境におけるデータセット間で互換性のあるアノテーションポリシーを選択する際に、もっと考慮すべきであると考えている。
論文 参考訳(メタデータ) (2024-04-29T14:49:35Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Packaging code for reproducible research in the public sector [0.0]
jtstatsプロジェクトは、大規模で複雑なデータセットをインポート、処理、視覚化するためのRとPythonパッケージで構成されている。
Jtstatsは、パブリックセクター内外において、ドメイン固有のパッケージが再現可能な研究を可能にする方法を示している。
論文 参考訳(メタデータ) (2023-05-25T16:07:24Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Design of Experiments for Stochastic Contextual Linear Bandits [47.804797753836894]
線形文脈帯域設定では、取得されたデータに反応するポリシーで探索するためのいくつかのミニマックス手順が存在する。
我々は、最適に近いポリシーを抽出できる優れたデータセットを収集するための単一のポリシーを設計する。
合成および実世界の両方のデータセットに関する数値実験と同様に理論的解析を行う。
論文 参考訳(メタデータ) (2021-07-21T07:25:37Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。