論文の概要: An Experimental Study on Learning Correlated Equilibrium in Routing
Games
- arxiv url: http://arxiv.org/abs/2208.00391v1
- Date: Sun, 31 Jul 2022 08:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 15:01:36.257383
- Title: An Experimental Study on Learning Correlated Equilibrium in Routing
Games
- Title(参考訳): ルーティングゲームにおける相関平衡学習に関する実験的研究
- Authors: Yixian Zhu and Ketan Savla
- Abstract要約: 本研究では,不確実な自然状態がリンク遅延関数を決定する繰り返しルーティングゲームにおける経路選択について検討する。
ワンショット設定では、エージェントは後部予想で最小の旅行時間を与える場合、推奨に従うとされる。
繰り返し設定へのもっともらしい拡張は、ラウンドにおける追従の可能性は、以前のラウンドからの後悔と関連しているということである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study route choice in a repeated routing game where an uncertain state of
nature determines link latency functions, and agents receive private route
recommendation. The state is sampled in an i.i.d. manner in every round from a
publicly known distribution, and the recommendations are generated by a
randomization policy whose mapping from the state is known publicly. In a
one-shot setting, the agents are said to obey recommendation if it gives the
smallest travel time in a posteriori expectation. A plausible extension to
repeated setting is that the likelihood of following recommendation in a round
is related to regret from previous rounds. If the regret is of satisficing type
with respect to a default choice and is averaged over past rounds and over all
agents, then the asymptotic outcome under an obedient recommendation policy
coincides with the one-shot outcome. We report findings from an experiment with
one participant at a time engaged in repeated route choice decision on
computer. In every round, the participant is shown travel time distribution for
each route, a route recommendation generated by an obedient policy, and a
rating suggestive of average experience of previous participants with the
quality of recommendation. Upon entering route choice, the actual travel times
are revealed. The participant evaluates the quality of recommendation by
submitting a review. This is combined with historical reviews to update rating
for the next round. Data analysis from 33 participants each with 100 rounds
suggests moderate negative correlation between the display rating and the
average regret, and a strong positive correlation between the rating and the
likelihood of following recommendation. Overall, under obedient recommendation
policy, the rating converges close to its maximum value by the end of the
experiments in conjunction with very high frequency of following
recommendations.
- Abstract(参考訳): リンク遅延関数を不確定な状態が決定し,エージェントがプライベートなルートレコメンデーションを受ける繰り返しルーティングゲームにおいて,経路選択について検討する。
状態は、公知の分布から各ラウンドごとにi.i.d.方法でサンプリングされ、その推奨は、状態からのマッピングが公に知られているランダム化ポリシーによって生成される。
ワンショット設定では、エージェントは後部予想で最小の旅行時間を与える場合、推奨に従うとされる。
繰り返し設定へのもっともらしい拡張は、ラウンドにおける推奨に従う可能性は、以前のラウンドからの後悔に関係しているということだ。
後悔がデフォルトの選択に関して型を満足し、過去のラウンドと全てのエージェントで平均化されている場合、従順な推奨ポリシーの下での漸近的な結果は、一発の結果と一致する。
我々は,コンピュータ上で繰り返し経路選択を行う1人の参加者による実験から得られた知見を報告する。
各ラウンドにおいて、参加者は各ルートの走行時間分布、従順なポリシーによって生成されたルートレコメンデーション、および前回の参加者の平均体験を推奨する評価を示す。
経路選択に入ると、実際の走行時間が表示される。
参加者はレビューを提出して推薦の質を評価する。
これは過去のレビューと組み合わされ、次のラウンドのレーティングを更新する。
それぞれ100ラウンドの参加者33名のデータ分析から,表示率と平均後悔率との間には中程度の負の相関がみられ,評価値と後続の推奨率との間には強い正の相関がみられた。
概して、従順な推奨政策の下では、評価は実験の終了までに最大値にほぼ収束し、後続の勧告の頻度が非常に高い。
関連論文リスト
- SBTRec- A Transformer Framework for Personalized Tour Recommendation
Problem with Sentiment Analysis [6.753123338256321]
SBTRecは、感情分析を備えたBERTベースのTrajectory Recommendationである。
異なるPOIに関するレビューやコメントから、ユーザの好みと満足度レベルを学ぶ。
平均F1スコアは61.45%で、ベースラインアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-11-18T13:30:01Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - No Agreement Without Loss: Learning and Social Choice in Peer Review [0.0]
それぞれのレビュアーが、機能セットからレコメンデーションへの独自のマッピングを持っていると仮定してもよいでしょう。
これは、共振バイアス(commensuration bias)として知られる任意の要素を導入する。
Noothigattu, Shah and Procaccia は、ある種の損失関数を最小化することによってレビュアーのマッピングを集約することを提案した。
論文 参考訳(メタデータ) (2022-11-03T21:03:23Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Peer Selection with Noisy Assessments [43.307040330622186]
現在最も正確なピアレビューアルゴリズムであるPeerNominationをWeightedPeerNominationに拡張します。
重み付け方式により、選択の全体的な精度が大幅に向上できることを解析的に示す。
論文 参考訳(メタデータ) (2021-07-21T14:47:11Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z) - Predictive Bandits [68.8204255655161]
我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
論文 参考訳(メタデータ) (2020-04-02T17:12:33Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。