論文の概要: Making the most of your day: online learning for optimal allocation of
time
- arxiv url: http://arxiv.org/abs/2102.08087v1
- Date: Tue, 16 Feb 2021 11:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:11:06.577371
- Title: Making the most of your day: online learning for optimal allocation of
time
- Title(参考訳): 日々を最大限に活用する: 最適な時間配分のためのオンライン学習
- Authors: Etienne Boursier and Tristan Garrec and Vianney Perchet and Marco
Scarsini
- Abstract要約: 割り当てるリソースが時間である場合の最適割り当てのためのオンライン学習について検討する。
適用可能な例としては、乗車で一日を埋めるドライバー、不動産を借りる家主などがあります。
- 参考スコア(独自算出の注目度): 24.192291264766844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online learning for optimal allocation when the resource to be
allocated is time. Examples of possible applications include a driver filling a
day with rides, a landlord renting an estate, etc. Following our initial
motivation, a driver receives ride proposals sequentially according to a
Poisson process and can either accept or reject a proposed ride. If she accepts
the proposal, she is busy for the duration of the ride and obtains a reward
that depends on the ride duration. If she rejects it, she remains on hold until
a new ride proposal arrives. We study the regret incurred by the driver first
when she knows her reward function but does not know the distribution of the
ride duration, and then when she does not know her reward function, either.
Faster rates are finally obtained by adding structural assumptions on the
distribution of rides or on the reward function. This natural setting bears
similarities with contextual (one-armed) bandits, but with the crucial
difference that the normalized reward associated to a context depends on the
whole distribution of contexts.
- Abstract(参考訳): 割り当てるリソースが時間である場合の最適割り当てのためのオンライン学習について検討する。
適用可能な例としては、乗車で一日を埋めるドライバー、不動産を借りる家主などがあります。
最初のモチベーションに従って、ドライバーはPoissonプロセスに従って順次乗車提案を受け取り、提案された乗車を受け入れたり拒否したりすることができる。
彼女が提案を受け入れた場合、彼女は乗車期間中に忙しく、乗車期間に応じて報酬を得ます。
もし彼女がそれを拒絶すれば、彼女は新しい乗車提案が来るまで保留される。
私たちは、ドライバーが被った後悔をまず、彼女が彼女の報酬関数を知っているが、乗車期間の分布を知らないとき、そして彼女が彼女の報酬関数を知らないときに研究します。
より速いレートは、乗車の分布や報酬関数に構造的な仮定を追加することで得られる。
この自然な設定は、コンテキスト(片腕)のバンディットと類似しているが、コンテキストに関連する正規化報酬がコンテキスト全体の分布に依存するという重大な違いがある。
関連論文リスト
- Increasing Students' Engagement to Reminder Emails Through Multi-Armed
Bandits [60.4933541247257]
本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかについて,実世界の適応実験を行った。
適応実験にマルチアーマド・バンド(MAB)アルゴリズムを用いると、より良い結果が得られる可能性が高まる。
我々は、これらの適応アルゴリズムの問題点を強調します。例えば、大きな違いがない場合の腕の活用などです。
論文 参考訳(メタデータ) (2022-08-10T00:30:52Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
複数の報酬関数がデータに等しく適合していることが、無限のデータ極限においても示される。
政策最適化などの下流業務におけるこの部分的識別可能性の影響を分析した。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Sharing Behavior in Ride-hailing Trips: A Machine Learning Inference
Approach [1.9111219197011353]
共有乗車を希望する乗客の意思は、一年を通して27.0%から12.8%へと単調に低下している。
共有の好みの低下は、共有旅行の1マイル当たりのコストの増加と、単独への短い旅行のシフトによるものである。
論文 参考訳(メタデータ) (2022-01-30T01:17:36Z) - Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。
評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文 参考訳(メタデータ) (2021-12-13T09:48:54Z) - Explaining Ridesharing: Selection of Explanations for Increasing User
Satisfaction [10.86084463641286]
ユーザ満足度を高めるための説明を提供するエージェントを開発する。
機械学習ベースのエージェントは、ユーザの満足度を高める可能性が最も高い説明を選択する。
人間からのフィードバックを用いて、私たちの機械学習ベースのエージェントは、合理的エージェントとランダムに説明を選択するエージェントよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-26T12:03:09Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - Trading the System Efficiency for the Income Equality of Drivers in
Rideshare [23.53645438932742]
ライダーの差別的キャンセルによる配車ドライバー間の所得格差を調査します。
事前に知られた流通に続いて、ライダーが順次到着すると想定されるオンライン二元マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-12-12T16:04:06Z) - Modeling and solving the multimodal car- and ride-sharing problem [0.0]
マルチモーダルカー・ライドシェアリング問題(MMCRP)を紹介する。
車両のプールは一連の乗車要求をカバーするために使用され、発見されていない要求は他の交通手段に割り当てられる。
カラム生成に基づく2層分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-15T09:43:55Z) - Incentivizing Exploration with Selective Data Disclosure [94.32975679779491]
効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文 参考訳(メタデータ) (2018-11-14T19:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。