Fugu-MT 論文翻訳(概要): Bandit Data-Driven Optimization

論文の概要: Bandit Data-Driven Optimization

arxiv url: http://arxiv.org/abs/2008.11707v2
Date: Fri, 14 Jan 2022 21:28:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 20:44:48.415180
Title: Bandit Data-Driven Optimization
Title（参考訳）: Bandit データ駆動最適化
Authors: Zheyuan Ryan Shi, Zhiwei Steven Wu, Rayid Ghani, Fei Fang
Abstract要約: 機械学習パイプラインが設定で有用になるためには、克服しなければならない大きな問題点が4つある。これらの問題点に対処する最初の反復予測記述フレームワークであるBanditデータ駆動最適化を導入する。本稿では,このフレームワークの新しいアルゴリズム PROOF を提案する。
参考スコア（独自算出の注目度）: 62.01362535014316
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Applications of machine learning in the non-profit and public sectors often feature an iterative workflow of data acquisition, prediction, and optimization of interventions. There are four major pain points that a machine learning pipeline must overcome in order to be actually useful in these settings: small data, data collected only under the default intervention, unmodeled objectives due to communication gap, and unforeseen consequences of the intervention. In this paper, we introduce bandit data-driven optimization, the first iterative prediction-prescription framework to address these pain points. Bandit data-driven optimization combines the advantages of online bandit learning and offline predictive analytics in an integrated framework. We propose PROOF, a novel algorithm for this framework and formally prove that it has no-regret. Using numerical simulations, we show that PROOF achieves superior performance than existing baseline. We also apply PROOF in a detailed case study of food rescue volunteer recommendation, and show that PROOF as a framework works well with the intricacies of ML models in real-world AI for non-profit and public sector applications.
Abstract（参考訳）: 非営利団体や公共セクターにおける機械学習の応用は、データ取得、予測、介入の最適化の反復的なワークフローを特徴とすることが多い。小さなデータ、デフォルトの介入の下でのみ収集されたデータ、通信ギャップによる未モデリングの目的、そして予期せぬ介入の結果である。本稿では,これらの問題点に対処するための最初の反復予測記述フレームワークであるbandit data-driven optimizationを提案する。 banditのデータ駆動最適化は、オンラインのバンディット学習とオフラインの予測分析の利点を統合フレームワークで組み合わせる。我々は,このフレームワークの新たなアルゴリズムであるpromiseを提案し,それに対してregretがないことを正式に証明する。数値シミュレーションにより, ProOF は既存のベースラインよりも優れた性能を示した。また,PROOFを食品支援ボランティア推奨の詳細なケーススタディに適用し,NPOおよび公共セクター向け実世界のAIにおけるMLモデルの複雑度に相応しいフレームワークとしてPROOFが有効であることを示す。

関連論文リスト

Autocorrelated Optimize-via-Estimate: Predict-then-Optimize versus Finite-sample Optimal [2.0228793142608588]
有限サンプル体制におけるアウト・オブ・サンプル性能を直接最適化するモデルは、従来の見積もりを最適化するアプローチに代わる有望な選択肢として現れてきた。自動相関不確実性(特にベクトル自己回帰移動平均VARMA(p,q)プロセス)の文脈での性能を比較する。
論文参考訳（メタデータ） (2026-02-02T09:49:51Z)
Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Forecasting Outside the Box: Application-Driven Optimal Pointwise Forecasts for Stochastic Optimization [0.0]
本稿では,未知の状況の最適近似を導出する統合学習と最適化手法を提案する。文献の在庫問題と実データを用いた自転車共有問題から得られた数値結果から,提案手法が有効であることを示す。
論文参考訳（メタデータ） (2024-11-05T21:54:50Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文参考訳（メタデータ） (2024-05-28T11:30:19Z)
A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-20T23:59:26Z)
Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-08T22:33:14Z)
Communication-Efficient Federated Non-Linear Bandit Optimization [26.23638987873429]
汎用非線形目的関数を用いた連邦帯域最適化のための新しいアルゴリズムであるFed-GO-UCBを提案する。いくつかの軽度の条件下では、Fed-GO-UCBが累積的後悔と通信コストの両方でサブ線形レートを達成できることを厳格に証明する。
論文参考訳（メタデータ） (2023-11-03T03:50:31Z)
Building Resilience to Out-of-Distribution Visual Data via Input Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文参考訳（メタデータ） (2022-11-29T14:06:35Z)
Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文参考訳（メタデータ） (2022-10-11T20:20:20Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。