Fugu-MT 論文翻訳(概要): Human-in-the-loop Learning for Dynamic Congestion Games

論文の概要: Human-in-the-loop Learning for Dynamic Congestion Games

arxiv url: http://arxiv.org/abs/2404.15599v2
Date: Sat, 16 Nov 2024 01:45:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.040689
Title: Human-in-the-loop Learning for Dynamic Congestion Games
Title（参考訳）: 動的混雑ゲームのためのHuman-in-the-loop学習
Authors: Hongbo Li, Lingjie Duan,
Abstract要約: 本研究では, 利用者が交通条件を学習し, 交通条件を変更する方法について検討する。提案手法は,経路の過度な探索に繋がることを示す。本研究では,選択したユーザグループからすべての情報を隠蔽するための複合的な隠蔽・確率的レコメンデーション(CHAR)機構を提案する。
参考スコア（独自算出の注目度）: 17.986928810925686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Today mobile users learn and share their traffic observations via crowdsourcing platforms (e.g., Waze). Yet such platforms simply cater to selfish users' myopic interests to recommend the shortest path, and do not encourage enough users to travel and learn other paths for future others. Prior studies focus on one-shot congestion games without considering users' information learning, while our work studies how users learn and alter traffic conditions on stochastic paths in a human-in-the-loop manner. Our analysis shows that the myopic routing policy leads to severe under-exploration of stochastic paths. This results in a price of anarchy (PoA) greater than $2$, as compared to the socially optimal policy in minimizing the long-term social cost. Besides, the myopic policy fails to ensure the correct learning convergence about users' traffic hazard beliefs. To address this, we focus on informational (non-monetary) mechanisms as they are easier to implement than pricing. We first show that existing information-hiding mechanisms and deterministic path-recommendation mechanisms in Bayesian persuasion literature do not work with even (\text{PoA}=\infty). Accordingly, we propose a new combined hiding and probabilistic recommendation (CHAR) mechanism to hide all information from a selected user group and provide state-dependent probabilistic recommendations to the other user group. Our CHAR successfully ensures PoA less than (\frac{5}{4}), which cannot be further reduced by any other informational (non-monetary) mechanism. Besides the parallel network, we further extend our analysis and CHAR to more general linear path graphs with multiple intermediate nodes, and we prove that the PoA results remain unchanged. Additionally, we carry out experiments with real-world datasets to further extend our routing graphs and verify the close-to-optimal performance of our CHAR.
Abstract（参考訳）: 今日、モバイルユーザーはクラウドソーシングプラットフォーム(Wazeなど)を通じてトラフィックの観察を学習し、共有する。しかし、こうしたプラットフォームは単に、最短経路を推奨するために、利用者の自尊心を抱き、旅行や将来の他者への他経路の学習を奨励するものではない。先行研究は,ユーザの情報学習を考慮せずに,ワンショットの渋滞ゲームに焦点をあてる一方,我々の研究は,利用者が交通条件を学習し,ループ内での確率的経路で変化させる方法について研究している。解析の結果,筋電図の経路は高度に確率的経路の探索に繋がることが明らかとなった。これにより、長期の社会的コストを最小限に抑えるための社会的に最適な政策と比較して、2ドル以上のアナーキー(PoA)の価格が上昇する。さらに, 利用者の交通危険信念に対する正しい学習の収束を確保するために, 筋電図政策は失敗する。これを解決するために、価格よりも実装が容易な情報的(非金銭的)メカニズムに注目します。まず,ベイジアンパースケーション文学における既存の情報ハイディング機構と決定論的パスレコメンデーション機構が偶数(\text{PoA}=\infty)で機能しないことを示す。そこで本稿では,選択したユーザグループからすべての情報を隠蔽し,他のユーザグループに対して状態依存型確率的レコメンデーションを提供する,新たな隠れ確率的レコメンデーション(CHAR)機構を提案する。我々のCHARは PoA を (\frac{5}{4}) より小さくすることに成功した。並列ネットワークの他に、我々は解析とCHARを複数の中間ノードを持つより一般的な線形パスグラフに拡張し、PoAの結果が変わらないことを証明した。さらに、実際のデータセットによる実験を行い、ルーティンググラフをさらに拡張し、CHARの最適に近い性能を検証する。

関連論文リスト

To Analyze and Regulate Human-in-the-loop Learning for Congestion Games [17.986928810925686]
混雑ゲームでは、利己的なユーザは最短経路に群がり、ソーシャルプランナーは情報や支払いインセンティブを通じて、そのような利己的なルーティングを規制する仕組みを設計する。我々は,到着時パスを過度に発見しようとする場合にのみ最新の交通情報を公開すると同時に,過度に発見したい場合にその情報を隠蔽する,新しい選択情報開示機構を提案する。
論文参考訳（メタデータ） (2025-01-06T14:41:45Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
Highway Reinforcement Learning [35.980387097763035]
一連の政策によって収集された多段階のオフ政治データからの学習は、強化学習(RL)の中核的な問題である我々は、過小評価問題を避け、最適なVFに収束する新しいISフリーマルチステップオフ政治手法を提案する。これは、$n$が非常に大きい場合でも安全に学習する、新しい非政治的なRLアルゴリズムのファミリーを生み出します。
論文参考訳（メタデータ） (2024-05-28T15:42:45Z)
Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文参考訳（メタデータ） (2023-10-02T13:51:32Z)
TransPath: Learning Heuristics For Grid-Based Pathfinding via Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文参考訳（メタデータ） (2022-12-22T14:26:11Z)
Self-supervised Graph-based Point-of-interest Recommendation [66.58064122520747]
Next Point-of-Interest (POI)レコメンデーションは、ロケーションベースのeコマースにおいて重要なコンポーネントとなっている。自己教師付きグラフ強化POIレコメンデーション(S2GRec)を次のPOIレコメンデーションのために提案する。特に,グローバル・トランジション・グラフと局所軌道グラフの両方からの協調的な信号を組み込むために,グラフ強化セルフアテンテート・レイヤを考案した。
論文参考訳（メタデータ） (2022-10-22T17:29:34Z)
Online Learning for Traffic Routing under Unknown Preferences [30.83342068243601]
トラフィックネットワークに料金を設定するオンライン学習手法を提案し、異種ユーザをシステム効率のよいトラフィックパターンに向けて異なる時間的価値で駆動する。特に,ネットワークの道路上で観測された集合フローに基づいて,各時間ごとの料金を調整できる簡易かつ効果的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-03-31T16:21:29Z)
Policy Gradients Incorporating the Future [66.20567145291342]
我々はエージェントが明示的に予測することなく「未来を見る」方法を紹介した。我々は,エージェントが過去の経験を学習中に,その将来に何が起こったのかを観察できるように提案する。これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
論文参考訳（メタデータ） (2021-08-04T14:57:11Z)
Graph Intention Network for Click-through Rate Prediction in Sponsored Search [7.8836754883280555]
クリックスルー率(CTR)の推定は、スポンサード検索におけるユーザーエクスペリエンスと収益の向上に不可欠です。現在の作業の大部分は、ユーザのリアルタイム行動に基づいて意図を掘り下げることです。本稿では,ユーザ意図をマイニングするために,共起商品グラフに基づく新しいアプローチグラフインテンションネットワーク(gin)を提案する。
論文参考訳（メタデータ） (2021-03-30T08:44:16Z)
Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文参考訳（メタデータ） (2021-03-08T16:03:09Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。