論文の概要: Making the most of your day: online learning for optimal allocation of
time
- arxiv url: http://arxiv.org/abs/2102.08087v1
- Date: Tue, 16 Feb 2021 11:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:11:06.577371
- Title: Making the most of your day: online learning for optimal allocation of
time
- Title(参考訳): 日々を最大限に活用する: 最適な時間配分のためのオンライン学習
- Authors: Etienne Boursier and Tristan Garrec and Vianney Perchet and Marco
Scarsini
- Abstract要約: 割り当てるリソースが時間である場合の最適割り当てのためのオンライン学習について検討する。
適用可能な例としては、乗車で一日を埋めるドライバー、不動産を借りる家主などがあります。
- 参考スコア(独自算出の注目度): 24.192291264766844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online learning for optimal allocation when the resource to be
allocated is time. Examples of possible applications include a driver filling a
day with rides, a landlord renting an estate, etc. Following our initial
motivation, a driver receives ride proposals sequentially according to a
Poisson process and can either accept or reject a proposed ride. If she accepts
the proposal, she is busy for the duration of the ride and obtains a reward
that depends on the ride duration. If she rejects it, she remains on hold until
a new ride proposal arrives. We study the regret incurred by the driver first
when she knows her reward function but does not know the distribution of the
ride duration, and then when she does not know her reward function, either.
Faster rates are finally obtained by adding structural assumptions on the
distribution of rides or on the reward function. This natural setting bears
similarities with contextual (one-armed) bandits, but with the crucial
difference that the normalized reward associated to a context depends on the
whole distribution of contexts.
- Abstract(参考訳): 割り当てるリソースが時間である場合の最適割り当てのためのオンライン学習について検討する。
適用可能な例としては、乗車で一日を埋めるドライバー、不動産を借りる家主などがあります。
最初のモチベーションに従って、ドライバーはPoissonプロセスに従って順次乗車提案を受け取り、提案された乗車を受け入れたり拒否したりすることができる。
彼女が提案を受け入れた場合、彼女は乗車期間中に忙しく、乗車期間に応じて報酬を得ます。
もし彼女がそれを拒絶すれば、彼女は新しい乗車提案が来るまで保留される。
私たちは、ドライバーが被った後悔をまず、彼女が彼女の報酬関数を知っているが、乗車期間の分布を知らないとき、そして彼女が彼女の報酬関数を知らないときに研究します。
より速いレートは、乗車の分布や報酬関数に構造的な仮定を追加することで得られる。
この自然な設定は、コンテキスト(片腕)のバンディットと類似しているが、コンテキストに関連する正規化報酬がコンテキスト全体の分布に依存するという重大な違いがある。
関連論文リスト
- Informativeness of Reward Functions in Reinforcement Learning [34.40155383189179]
本稿では,情報的報酬関数を設計することで,エージェントの収束を高速化する問題について検討する。
現存する作品では、いくつかの異なる報酬デザインの定式化が検討されている。
本稿では,エージェントの現在の方針に適応し,特定の構造制約の下で最適化できる報奨情報量基準を提案する。
論文 参考訳(メタデータ) (2024-02-10T18:36:42Z) - Transductive Reward Inference on Graph [53.003245457089406]
本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
論文 参考訳(メタデータ) (2024-02-06T03:31:28Z) - Mutual Information as Intrinsic Reward of Reinforcement Learning Agents
for On-demand Ride Pooling [19.247162142334076]
オンデマンドの車両プールサービスにより、各車両は一度に複数の乗客にサービスを提供することができる。
既存のアルゴリズムでは、収益のみを考慮する場合が多いため、異常な配信要求を抱える場合、乗車が困難になる。
本稿では,都市を個別の配車に分割した配車作業のための配車フレームワークを提案し,これらの地域での配車に強化学習(RL)アルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-12-23T08:34:52Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。
評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文 参考訳(メタデータ) (2021-12-13T09:48:54Z) - Explaining Ridesharing: Selection of Explanations for Increasing User
Satisfaction [10.86084463641286]
ユーザ満足度を高めるための説明を提供するエージェントを開発する。
機械学習ベースのエージェントは、ユーザの満足度を高める可能性が最も高い説明を選択する。
人間からのフィードバックを用いて、私たちの機械学習ベースのエージェントは、合理的エージェントとランダムに説明を選択するエージェントよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-26T12:03:09Z) - Trading the System Efficiency for the Income Equality of Drivers in
Rideshare [23.53645438932742]
ライダーの差別的キャンセルによる配車ドライバー間の所得格差を調査します。
事前に知られた流通に続いて、ライダーが順次到着すると想定されるオンライン二元マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-12-12T16:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。