論文の概要: Practical Bandits: An Industry Perspective
- arxiv url: http://arxiv.org/abs/2302.01223v1
- Date: Thu, 2 Feb 2023 17:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:17:19.494674
- Title: Practical Bandits: An Industry Perspective
- Title(参考訳): 実践的バンド: 産業の展望
- Authors: Bram van den Akker, Olivier Jeunen, Ying Li, Ben London, Zahra Nazari,
Devesh Parekh
- Abstract要約: Banditパラダイムは、不確実性の下で意思決定を必要とする問題に対する統一されたモデリングフレームワークを提供する。
banditレンズによって、私たちが関心を持っているメトリクスの直接最適化が約束されます。
このチュートリアルは、バンディットの理論と実践の間のギャップを埋めるための一歩を踏み出す。
- 参考スコア(独自算出の注目度): 7.682671667564167
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The bandit paradigm provides a unified modeling framework for problems that
require decision-making under uncertainty. Because many business metrics can be
viewed as rewards (a.k.a. utilities) that result from actions, bandit
algorithms have seen a large and growing interest from industrial applications,
such as search, recommendation and advertising. Indeed, with the bandit lens
comes the promise of direct optimisation for the metrics we care about.
Nevertheless, the road to successfully applying bandits in production is not
an easy one. Even when the action space and rewards are well-defined,
practitioners still need to make decisions regarding multi-arm or contextual
approaches, on- or off-policy setups, delayed or immediate feedback, myopic or
long-term optimisation, etc. To make matters worse, industrial platforms
typically give rise to large action spaces in which existing approaches tend to
break down. The research literature on these topics is broad and vast, but this
can overwhelm practitioners, whose primary aim is to solve practical problems,
and therefore need to decide on a specific instantiation or approach for each
project. This tutorial will take a step towards filling that gap between the
theory and practice of bandits. Our goal is to present a unified overview of
the field and its existing terminology, concepts and algorithms -- with a focus
on problems relevant to industry. We hope our industrial perspective will help
future practitioners who wish to leverage the bandit paradigm for their
application.
- Abstract(参考訳): Banditパラダイムは、不確実性の下で意思決定を必要とする問題に対する統一されたモデリングフレームワークを提供する。
多くのビジネスメトリクスは、アクションから生じる報酬(すなわちユーティリティ)と見なすことができるため、banditアルゴリズムは、検索、推奨、広告といった産業アプリケーションから、大きく関心を集めている。
実際、バンディットレンズによって、私たちが関心を持っているメトリクスの直接最適化が約束されます。
にもかかわらず、生産にバンディットをうまく適用する道筋は容易ではない。
アクションスペースや報酬が明確に定義されている場合でも、マルチアームやコンテキストアプローチ、オンまたはオフポリシーのセットアップ、遅延または即時のフィードバック、近視的あるいは長期の最適化などに関する意思決定を行う必要があります。
さらに悪いことに、産業プラットフォームは通常、既存のアプローチが崩壊する傾向にある大きなアクションスペースを生み出します。
これらのトピックに関する研究文献は広く広大なが、これは実践的な問題の解決を主な目的とする実践者を圧倒し、プロジェクト毎に特定のインスタンス化やアプローチを決定する必要がある。
このチュートリアルは、バンディットの理論と実践の間のギャップを埋めるための一歩を踏み出す。
我々の目標は、この分野と既存の用語、概念、アルゴリズムの統一的な概要を示し、産業に関連する問題に焦点を当てることです。
当社の産業的視点は,バンディットパラダイムを活用したい将来的な実践者を支援することを願っています。
関連論文リスト
- SoK: Software Compartmentalization [3.058923790501231]
大規模なシステムを小さなコンポーネントに分解することは、エクスプロイトの影響を最小限に抑える効果的な方法として長年認識されてきた。
歴史的ルーツ、実証された利益、そして学術と産業における多くの研究努力にもかかわらず、ソフトウェアの区画化は依然として主流ではない。
本稿では,構成化アプローチの体系的分析,比較,指示のための統一モデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T00:38:45Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Learning Machine Morality through Experience and Interaction [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
我々は、適応可能で堅牢だが、より制御可能で解釈可能なエージェントを作成するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Deflectometry for specular surfaces: an overview [0.0]
反射面を評価するための技術的アプローチとしてのデフレクトメトリーは、現在40年近く存在しています。
この手法の様々な側面とバリエーションが、複数の論文や研究論文で研究され、また特定のサブトピックにもレビューが利用できるようになった。
論文 参考訳(メタデータ) (2022-04-10T22:17:47Z) - A Framework for Fairness: A Systematic Review of Existing Fair AI
Solutions [4.594159253008448]
公正性の研究の大部分は、機械学習の実践者がアルゴリズムを設計しながらバイアスを監査するために使用できるツールの開発に費やされている。
実際には、これらの公平性ソリューションの応用例が欠如している。
このレビューでは、定義されたアルゴリズムバイアス問題と提案された公正解空間の詳細な概要について述べる。
論文 参考訳(メタデータ) (2021-12-10T17:51:20Z) - Comparing Heuristics, Constraint Optimization, and Reinforcement
Learning for an Industrial 2D Packing Problem [58.720142291102135]
カットとパッケージングの問題は、ビジネスの収益に直接影響を与えるさまざまな業界で起きている。
機械学習は、このような問題を解決するためにますます使われています。
論文 参考訳(メタデータ) (2021-10-27T15:47:47Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Combinatorial Pure Exploration with Full-bandit Feedback and Beyond:
Solving Combinatorial Optimization under Uncertainty with Limited Observation [70.41056265629815]
最適化アルゴリズムを開発する際、エッジウェイトなどのパラメータが入力として正確に知られていることが一般的である。
本稿では、最近、限られたフィードバックを伴う純粋探索問題に対する手法について概説する。
論文 参考訳(メタデータ) (2020-12-31T12:40:52Z) - Forecasting: theory and practice [65.71277206849244]
本稿は、理論と予測の実践について、非体系的なレビューを提供する。
我々は、幅広い理論的、最先端のモデル、方法、原則、アプローチの概要を提供する。
そして、そのような理論概念が様々な実生活の文脈でどのように適用されるかを示す。
論文 参考訳(メタデータ) (2020-12-04T16:56:44Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Algorithmic Fairness from a Non-ideal Perspective [26.13086713244309]
提案する公正な機械学習アルゴリズムの欠点は、理想的なアプローチが直面するより広範な問題を反映している、と我々は主張する。
我々は、誤った解の害、不合理な結果の再解釈、今後の研究の方向性について批判的な議論を締めくくった。
論文 参考訳(メタデータ) (2020-01-08T18:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。