論文の概要: Research Vision: Multi-Agent Path Planning for Cops And Robbers Via Reactive Synthesis
- arxiv url: http://arxiv.org/abs/2503.11475v1
- Date: Fri, 14 Mar 2025 15:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.374594
- Title: Research Vision: Multi-Agent Path Planning for Cops And Robbers Via Reactive Synthesis
- Title(参考訳): 研究ビジョン:反応合成によるコップとロバーのマルチエージェントパス計画
- Authors: William Fishell, Andoni Rodriguez, Mark Santolucito,
- Abstract要約: 反応合成による古典的コップスとロバースゲームの一般化のためのマルチエージェントパス計画法を提案する。
コーディネーション・シンセサイザーの応用により、様々なCopsやRobersのゲームが実現可能であるかどうかを確認する。
- 参考スコア(独自算出の注目度): 0.9886108751871757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the problem of multi-agent path planning for a generalization of the classic Cops and Robbers game via reactive synthesis. Specifically, through the application of LTLt and Coordination Synthesis, we aim to check whether various Cops and Robbers games are realizable (a strategy exists for the cops which guarantees they catch the robbers). Additionally, we construct this strategy as an executable program for the multiple system players in our games. In this paper we formalize the problem space, and propose potential directions for solutions. We also show how our formalization of this generalized cops and robbers game can be mapped to a broad range of other problems in the reactive program synthesis space.
- Abstract(参考訳): 反応合成による古典的コップスとロバースゲームの一般化のためのマルチエージェントパス計画法を提案する。
具体的には、LTLtとコーディネーション・シンセサイザーの適用により、様々なコップやロバーズゲームが実現可能かどうかを確認することを目的とする(強盗を捕まえることを保証する警官のための戦略が存在する)。
さらに,ゲーム内の複数のシステムプレーヤに対して,この戦略を実行可能なプログラムとして構築する。
本稿では,問題空間を形式化し,解の潜在的方向性を提案する。
また、この一般化された警官と強盗のゲームの形式化が、リアクティブプログラム合成空間における他の幅広い問題にどのようにマッピングできるかを示す。
関連論文リスト
- A Generalist Hanabi Agent [14.30496247213363]
従来のマルチエージェント強化学習(MARL)システムは、反復的な相互作用を通じて協調戦略を開発することができる。
MARLシステムは、訓練されたもの以外のどんな環境でもうまく機能しない。
これは人気のある2対5のカードゲームであるハナビベンチマークで特に見られる。
論文 参考訳(メタデータ) (2025-03-17T22:25:15Z) - Playing games with Large language models: Randomness and strategy [15.379345372327375]
大規模言語モデル(LLM)は、ランダム化と戦略的適応の能力を調査してゲームをすることができる。
我々は, GPT-4o-Mini-2024-08-17に着目し, LLM間の2つのゲーム: Rock Paper Scissors (RPS) と戦略ゲーム (Prisoners Dilemma PD) をテストする。
我々の研究によると、LPMは繰り返しゲームにおいて損失回避戦略を発達させ、PSは安定状態に収束し、PDは迅速な設計に基づく協調と競争の結果の体系的な変化を示す。
論文 参考訳(メタデータ) (2025-03-04T13:04:48Z) - Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Verbalized Bayesian Persuasion [54.55974023595722]
情報設計(ID)は、送信者が受信者の最適な振る舞いにどのように影響し、特定の目的を達成するかを探索する。
本研究は,従来のBPを人間の対話を含む現実のゲームに拡張した,ベイズ説得(BP)における言語化フレームワークを提案する。
勧告書,法廷相互作用,法執行機関などの対話シナリオにおける数値実験により,従来のBPの理論的結果の再現と効果的な説得戦略の発見が可能であることを確認した。
論文 参考訳(メタデータ) (2025-02-03T18:20:10Z) - Solving Urban Network Security Games: Learning Platform, Benchmark, and Challenge for AI Research [17.852935212709134]
本稿では,現実のシナリオをモデル化したUrban Network Security Games (textbfUNSG) を解くためのマルチプレイヤーゲームプラットフォームを提案する。
複数の警察官と逃亡犯とのこの相互作用は、UNSGとしてモデル化できる。
このゲームを解く主な課題は、ゲームの大きさと協力と競争の共存である。
論文 参考訳(メタデータ) (2025-01-29T10:46:57Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - The Design Of "Stratega": A General Strategy Games Framework [62.997667081978825]
Strategaはターンベースおよびリアルタイム戦略ゲームを作成するためのフレームワークである。
このフレームワークは、統計的フォワードプランニング(SFP)エージェントに焦点を当てて構築されている。
我々は,このフレームワークとそのエージェントの開発が,戦略ゲームにおける複雑な意思決定プロセスの理解に役立つことを願っている。
論文 参考訳(メタデータ) (2020-09-11T20:02:00Z) - Non-cooperative Multi-agent Systems with Exploring Agents [10.736626320566707]
マルコフゲームを用いたマルチエージェント動作の規範モデルを開発した。
エージェントが探索するが、最適戦略に近い」モデルに焦点を当てる。
論文 参考訳(メタデータ) (2020-05-25T19:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。