論文の概要: An Experimental Study on Learning Correlated Equilibrium in Routing
Games
- arxiv url: http://arxiv.org/abs/2208.00391v1
- Date: Sun, 31 Jul 2022 08:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 15:01:36.257383
- Title: An Experimental Study on Learning Correlated Equilibrium in Routing
Games
- Title(参考訳): ルーティングゲームにおける相関平衡学習に関する実験的研究
- Authors: Yixian Zhu and Ketan Savla
- Abstract要約: 本研究では,不確実な自然状態がリンク遅延関数を決定する繰り返しルーティングゲームにおける経路選択について検討する。
ワンショット設定では、エージェントは後部予想で最小の旅行時間を与える場合、推奨に従うとされる。
繰り返し設定へのもっともらしい拡張は、ラウンドにおける追従の可能性は、以前のラウンドからの後悔と関連しているということである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study route choice in a repeated routing game where an uncertain state of
nature determines link latency functions, and agents receive private route
recommendation. The state is sampled in an i.i.d. manner in every round from a
publicly known distribution, and the recommendations are generated by a
randomization policy whose mapping from the state is known publicly. In a
one-shot setting, the agents are said to obey recommendation if it gives the
smallest travel time in a posteriori expectation. A plausible extension to
repeated setting is that the likelihood of following recommendation in a round
is related to regret from previous rounds. If the regret is of satisficing type
with respect to a default choice and is averaged over past rounds and over all
agents, then the asymptotic outcome under an obedient recommendation policy
coincides with the one-shot outcome. We report findings from an experiment with
one participant at a time engaged in repeated route choice decision on
computer. In every round, the participant is shown travel time distribution for
each route, a route recommendation generated by an obedient policy, and a
rating suggestive of average experience of previous participants with the
quality of recommendation. Upon entering route choice, the actual travel times
are revealed. The participant evaluates the quality of recommendation by
submitting a review. This is combined with historical reviews to update rating
for the next round. Data analysis from 33 participants each with 100 rounds
suggests moderate negative correlation between the display rating and the
average regret, and a strong positive correlation between the rating and the
likelihood of following recommendation. Overall, under obedient recommendation
policy, the rating converges close to its maximum value by the end of the
experiments in conjunction with very high frequency of following
recommendations.
- Abstract(参考訳): リンク遅延関数を不確定な状態が決定し,エージェントがプライベートなルートレコメンデーションを受ける繰り返しルーティングゲームにおいて,経路選択について検討する。
状態は、公知の分布から各ラウンドごとにi.i.d.方法でサンプリングされ、その推奨は、状態からのマッピングが公に知られているランダム化ポリシーによって生成される。
ワンショット設定では、エージェントは後部予想で最小の旅行時間を与える場合、推奨に従うとされる。
繰り返し設定へのもっともらしい拡張は、ラウンドにおける推奨に従う可能性は、以前のラウンドからの後悔に関係しているということだ。
後悔がデフォルトの選択に関して型を満足し、過去のラウンドと全てのエージェントで平均化されている場合、従順な推奨ポリシーの下での漸近的な結果は、一発の結果と一致する。
我々は,コンピュータ上で繰り返し経路選択を行う1人の参加者による実験から得られた知見を報告する。
各ラウンドにおいて、参加者は各ルートの走行時間分布、従順なポリシーによって生成されたルートレコメンデーション、および前回の参加者の平均体験を推奨する評価を示す。
経路選択に入ると、実際の走行時間が表示される。
参加者はレビューを提出して推薦の質を評価する。
これは過去のレビューと組み合わされ、次のラウンドのレーティングを更新する。
それぞれ100ラウンドの参加者33名のデータ分析から,表示率と平均後悔率との間には中程度の負の相関がみられ,評価値と後続の推奨率との間には強い正の相関がみられた。
概して、従順な推奨政策の下では、評価は実験の終了までに最大値にほぼ収束し、後続の勧告の頻度が非常に高い。
関連論文リスト
- Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits [23.15042648884445]
我々は,Linear Cascading Banditsとして知られる,よく知られた文脈的帯域幅アルゴリズムのクラスにおける露出バイアスについて検討した。
本研究では,1)暗黙的なユーザフィードバック,2)レコメンデーションリストにおける項目の位置という2つの要因に基づいて,モデルパラメータを更新する Exposure-Aware reward モデルを提案する。
論文 参考訳(メタデータ) (2024-08-08T09:35:01Z) - Treatment Effect Estimation for User Interest Exploration on Recommender Systems [10.05609996672672]
本稿では,トップN推薦を処理最適化問題とみなすUpliftモデルに基づくRecommenderフレームワークを提案する。
UpliftRecは、観察ユーザフィードバックを用いて、異なるカテゴリの露出比で、クリックスルーレート(CTR)という治療効果を推定する。
UpliftRecはグループレベルの治療効果を計算し、高いCTR報酬でユーザの隠れた関心を発見する。
論文 参考訳(メタデータ) (2024-05-14T13:22:33Z) - A First Look at Selection Bias in Preference Elicitation for Recommendation [64.44255178199846]
選好選好における選好バイアスの影響について検討した。
大きなハードルは、好みの推論インタラクションを持つ公開データセットがないことです。
本稿では,トピックに基づく選好提案プロセスのシミュレーションを提案する。
論文 参考訳(メタデータ) (2024-05-01T14:56:56Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Peer Selection with Noisy Assessments [43.307040330622186]
現在最も正確なピアレビューアルゴリズムであるPeerNominationをWeightedPeerNominationに拡張します。
重み付け方式により、選択の全体的な精度が大幅に向上できることを解析的に示す。
論文 参考訳(メタデータ) (2021-07-21T14:47:11Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z) - Predictive Bandits [68.8204255655161]
我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
論文 参考訳(メタデータ) (2020-04-02T17:12:33Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。