論文の概要: Bandit Data-Driven Optimization
- arxiv url: http://arxiv.org/abs/2008.11707v2
- Date: Fri, 14 Jan 2022 21:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 20:44:48.415180
- Title: Bandit Data-Driven Optimization
- Title(参考訳): Bandit データ駆動最適化
- Authors: Zheyuan Ryan Shi, Zhiwei Steven Wu, Rayid Ghani, Fei Fang
- Abstract要約: 機械学習パイプラインが設定で有用になるためには、克服しなければならない大きな問題点が4つある。
これらの問題点に対処する最初の反復予測記述フレームワークであるBanditデータ駆動最適化を導入する。
本稿では,このフレームワークの新しいアルゴリズム PROOF を提案する。
- 参考スコア(独自算出の注目度): 62.01362535014316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Applications of machine learning in the non-profit and public sectors often
feature an iterative workflow of data acquisition, prediction, and optimization
of interventions. There are four major pain points that a machine learning
pipeline must overcome in order to be actually useful in these settings: small
data, data collected only under the default intervention, unmodeled objectives
due to communication gap, and unforeseen consequences of the intervention. In
this paper, we introduce bandit data-driven optimization, the first iterative
prediction-prescription framework to address these pain points. Bandit
data-driven optimization combines the advantages of online bandit learning and
offline predictive analytics in an integrated framework. We propose PROOF, a
novel algorithm for this framework and formally prove that it has no-regret.
Using numerical simulations, we show that PROOF achieves superior performance
than existing baseline. We also apply PROOF in a detailed case study of food
rescue volunteer recommendation, and show that PROOF as a framework works well
with the intricacies of ML models in real-world AI for non-profit and public
sector applications.
- Abstract(参考訳): 非営利団体や公共セクターにおける機械学習の応用は、データ取得、予測、介入の最適化の反復的なワークフローを特徴とすることが多い。
小さなデータ、デフォルトの介入の下でのみ収集されたデータ、通信ギャップによる未モデリングの目的、そして予期せぬ介入の結果である。
本稿では,これらの問題点に対処するための最初の反復予測記述フレームワークであるbandit data-driven optimizationを提案する。
banditのデータ駆動最適化は、オンラインのバンディット学習とオフラインの予測分析の利点を統合フレームワークで組み合わせる。
我々は,このフレームワークの新たなアルゴリズムであるpromiseを提案し,それに対してregretがないことを正式に証明する。
数値シミュレーションにより, ProOF は既存のベースラインよりも優れた性能を示した。
また,PROOFを食品支援ボランティア推奨の詳細なケーススタディに適用し,NPOおよび公共セクター向け実世界のAIにおけるMLモデルの複雑度に相応しいフレームワークとしてPROOFが有効であることを示す。
関連論文リスト
- Forecasting Outside the Box: Application-Driven Optimal Pointwise Forecasts for Stochastic Optimization [0.0]
本稿では,未知の状況の最適近似を導出する統合学習と最適化手法を提案する。
文献の在庫問題と実データを用いた自転車共有問題から得られた数値結果から,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-05T21:54:50Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Communication-Efficient Federated Non-Linear Bandit Optimization [26.23638987873429]
汎用非線形目的関数を用いた連邦帯域最適化のための新しいアルゴリズムであるFed-GO-UCBを提案する。
いくつかの軽度の条件下では、Fed-GO-UCBが累積的後悔と通信コストの両方でサブ線形レートを達成できることを厳格に証明する。
論文 参考訳(メタデータ) (2023-11-03T03:50:31Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。