Fugu-MT 論文翻訳(概要): TSC: Topology-Conditioned Stackelberg Coordination for Multi-Agent Reinforcement Learning in Interactive Driving

論文の概要: TSC: Topology-Conditioned Stackelberg Coordination for Multi-Agent Reinforcement Learning in Interactive Driving

arxiv url: http://arxiv.org/abs/2602.23896v1
Date: Fri, 27 Feb 2026 10:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.762806
Title: TSC: Topology-Conditioned Stackelberg Coordination for Multi-Agent Reinforcement Learning in Interactive Driving
Title（参考訳）: TSC:対話運転における多エージェント強化学習のためのトポロジコンディション付きStackelbergコーディネーション
Authors: Xiaotong Zhang, Gang Xiong, Yuanjing Wang, Siyu Teng, Alois Knoll, Long Chen,
Abstract要約: トポロジ条件付きStackelberg Coordinationは、コミュニケーションフリー実行下での分散インタラクティブ運転のための学習フレームワークである。 TSCは,主要な指標をまたいだ代表的MARLベースラインよりも優れた性能を示す。
参考スコア（独自算出の注目度）: 37.09409794849228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safe and efficient autonomous driving in dense traffic is fundamentally a decentralized multi-agent coordination problem, where interactions at conflict points such as merging and weaving must be resolved reliably under partial observability. With only local and incomplete cues, interaction patterns can change rapidly, often causing unstable behaviors such as oscillatory yielding or unsafe commitments. Existing multi-agent reinforcement learning (MARL) approaches either adopt synchronous decision-making, which exacerbate non-stationarity, or depend on centralized sequencing mechanisms that scale poorly as traffic density increases. To address these limitations, we propose Topology-conditioned Stackelberg Coordination (TSC), a learning framework for decentralized interactive driving under communication-free execution, which extracts a time-varying directed priority graph from braid-inspired weaving relations between trajectories, thereby defining local leader-follower dependencies without constructing a global order of play. Conditioned on this graph, TSC endogenously factorizes dense interactions into graph-local Stackelberg subgames and, under centralized training and decentralized execution (CTDE), learns a sequential coordination policy that anticipates leaders via action prediction and trains followers through action-conditioned value learning to approximate local best responses, improving training stability and safety in dense traffic. Experiments across four dense traffic scenarios show that TSC achieves superior performance over representative MARL baselines across key metrics, most notably reducing collisions while maintaining competitive traffic efficiency and control smoothness.
Abstract（参考訳）: 密集交通における安全で効率的な自律運転は、基本的に分散化されたマルチエージェント協調問題であり、マージやウィービングのような競合点における相互作用は、部分的な可観測性の下で確実に解決されなければならない。局所的および不完全なキューのみによって、相互作用パターンは急速に変化し、しばしば振動の収量や安全でないコミットメントのような不安定な振る舞いを引き起こす。既存のマルチエージェント強化学習(MARL)アプローチは、非定常性を悪化させる同期決定法を採用するか、あるいはトラフィック密度が増加するにつれて低下する集中的なシーケンシング機構に依存する。これらの制約に対処するため,通信自由な実行下での分散型インタラクティブ運転のための学習フレームワークであるTopology- Conditioned Stackelberg Coordination (TSC)を提案する。このグラフ上に条件付きで、TSCはグラフローカルなStackelbergサブゲームに密接な相互作用を不均一に分解し、集中的なトレーニングと分散実行(CTDE)の下で、行動予測を通じてリーダーを予測し、行動条件付き値学習を通じてフォロワーを訓練するシーケンシャルな調整ポリシーを学び、局所的なベストレスポンスを近似し、密集トラフィックのトレーニング安定性と安全性を向上させる。 4つの密集した交通シナリオに対する実験により、TSCは主要な指標をまたいだ代表的MARLベースラインよりも優れた性能を達成し、特に衝突を低減し、競合する交通効率と制御のスムーズさを維持した。

関連論文リスト

Krause Synchronization Transformers [63.8469912831803]
トランスフォーマーにおける自己注意は、グローバルに正規化されたソフトマックスの重みに依存しており、すべてのトークンがすべての層で影響を競う。クラーズ・アテンション(Krause Attention)は、有界信頼コンセンサス・ダイナミクスにインスパイアされた注意機構である。
論文参考訳（メタデータ） (2026-02-12T03:47:53Z)
Robust Single-Agent Reinforcement Learning for Regional Traffic Signal Control Under Demand Fluctuations [5.784337914162491]
交通渋滞は、主に交差点の待ち行列によって引き起こされ、都市生活水準、安全性、環境品質、経済効率に大きな影響を及ぼす。本研究では,地域適応型TSCのための新しい単エージェント強化学習フレームワークを提案する。このフレームワークは堅牢な反ゆらぎ能力を示し、待ち時間を大幅に短縮する。
論文参考訳（メタデータ） (2025-11-01T13:18:50Z)
Accelerating Privacy-Preserving Federated Learning in Large-Scale LEO Satellite Systems [57.692181589325116]
大規模な低地球軌道(LEO)衛星システムは、高速かつ広範囲のデータ交換を可能にする能力によって、ますます価値が高まっている。プライバシー上の懸念と規制上の制約のため、リモートクライアントで収集された生データを集中的に集約することはできない。フェデレーション学習は、分散デバイス上でローカルモデルをトレーニングし、モデルパラメータのみを交換することで、プライバシ保護の代替手段を提供する。本稿では,コミュニケーションリソースを動的に割り当て,フェデレート学習を高速化する,離散時間グラフに基づくオンデマンドスケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-05T03:33:42Z)
Federated Hierarchical Reinforcement Learning for Adaptive Traffic Signal Control [5.570882985800125]
マルチエージェント強化学習(MARL)は、適応的な交通信号制御(ATSC)を約束している。 MARLは広範なデータ共有と通信要求のために制約に直面している。我々はATSCのための階層型統合強化学習(HFRL)を提案する。
論文参考訳（メタデータ） (2025-04-07T23:02:59Z)
Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [87.7482313774741]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文参考訳（メタデータ） (2024-09-19T14:36:00Z)
Real-time Cooperative Vehicle Coordination at Unsignalized Road Intersections [7.860567520771493]
信号のない道路交差点での協調作業は、連結車両と自動車両の安全運転交通スループットを向上させることを目的としている。我々はモデルフリーなマルコフ決定プロセス(MDP)を導入し、深層強化学習フレームワークにおける双遅延Deep Deterministic Policy(TD3)に基づく戦略によりそれに取り組む。提案手法は, 準定常調整シナリオにおいて, ほぼ最適性能を達成し, 現実的な連続流れの制御を大幅に改善できることが示唆された。
論文参考訳（メタデータ） (2022-05-03T02:56:02Z)
Flatland Competition 2020: MAPF and MARL for Efficient Train Coordination on a Grid World [49.80905654161763]
車両再スケジュール問題(vrsp)の解法開発を目的としたフラットランドコンペティション VRSPは、交通ネットワークにおける旅行のスケジュールと、故障が発生した場合の車両の再スケジュールに関するものである。現代の鉄道網の複雑化は、交通の動的リアルタイムスケジューリングを事実上不可能にします。
論文参考訳（メタデータ） (2021-03-30T17:13:29Z)
Learning Scalable Multi-Agent Coordination by Spatial Differentiation for Traffic Signal Control [8.380832628205372]
交通信号制御のためのディープ強化学習法に基づくマルチエージェント協調フレームワークを設計する。具体的には、リプレイバッファ内の時間空間情報を用いて各アクションの報酬を補正する調整のための空間差分法を提案する。
論文参考訳（メタデータ） (2020-02-27T02:16:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。