Fugu-MT 論文翻訳(概要): Turn-based Multi-Agent Reinforcement Learning Model Checking

論文の概要: Turn-based Multi-Agent Reinforcement Learning Model Checking

arxiv url: http://arxiv.org/abs/2501.03187v1
Date: Mon, 06 Jan 2025 18:04:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:52.372391
Title: Turn-based Multi-Agent Reinforcement Learning Model Checking
Title（参考訳）: ターンベースマルチエージェント強化学習モデル検査
Authors: Dennis Gross,
Abstract要約: マルチプレイヤーゲームにおけるターンベースマルチエージェント強化学習(TMARL)エージェントの適合性を検証する新しい手法を提案する。提案手法は,TMARLの緊密な統合とモデルチェックと呼ばれる検証手法に依存している。実験の結果,本手法はTMARLエージェントの検証に適しており,モノリシックなモデル検査よりも優れていることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a novel approach for verifying the compliance of turn-based multi-agent reinforcement learning (TMARL) agents with complex requirements in stochastic multiplayer games. Our method overcomes the limitations of existing verification approaches, which are inadequate for dealing with TMARL agents and not scalable to large games with multiple agents. Our approach relies on tight integration of TMARL and a verification technique referred to as model checking. We demonstrate the effectiveness and scalability of our technique through experiments in different types of environments. Our experiments show that our method is suited to verify TMARL agents and scales better than naive monolithic model checking.
Abstract（参考訳）: 本稿では,確率的マルチプレイヤーゲームにおいて,複雑な要件を持つターンベースマルチエージェント強化学習(TMARL)エージェントのコンプライアンスを検証するための新しいアプローチを提案する。提案手法は,TMARLエージェントの処理に不適な既存の検証手法の限界を克服し,マルチエージェントを持つ大規模ゲームには拡張性がない。提案手法は,TMARLの緊密な統合とモデルチェックと呼ばれる検証手法に依存している。異なる種類の環境における実験を通して,本手法の有効性と拡張性を実証する。実験の結果,本手法はTMARLエージェントの検証に適しており,モノリシックなモデル検査よりも優れていることがわかった。

関連論文リスト

Perspectives for Direct Interpretability in Multi-Agent Deep Reinforcement Learning [0.41783829807634765]
マルチエージェントディープ強化学習(MADRL)は、ロボット工学やゲームにおいて複雑な問題を解くのに効果的であることが証明された。本稿では, 学習モデルから直接, ポストホックな説明を生成することによって, 直接解釈可能であることを提唱する。我々は、関連バックプロパゲーション、知識エディション、モデルステアリング、アクティベーションパッチ、スパースオートエンコーダ、サーキットディスカバリなど、現代的な手法を探求する。
論文参考訳（メタデータ） (2025-02-02T09:15:27Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文参考訳（メタデータ） (2023-10-17T17:58:34Z)
ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning [22.733348449818838]
マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。本稿では、データ拡張とよく設計された一貫性損失を統合することで、事前知識を活用するためのフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-30T09:49:05Z)
Learning Multiple Coordinated Agents under Directed Acyclic Graph Constraints [20.45657219304883]
本稿では,有向非巡回グラフ(DAG)制約下で複数の協調エージェントを学習する新しいマルチエージェント強化学習(MARL)法を提案する。既存のMARL手法とは異なり,本手法ではエージェント間のDAG構造を明示的に利用し,より効果的な学習性能を実現する。
論文参考訳（メタデータ） (2023-07-13T13:41:24Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning [15.12491397254381]
本稿では,暗黙的なモデルに基づくマルチエージェント強化学習手法を提案する。この方法では,エージェントは学習した仮想環境と対話し,将来の予測状態に応じて現在の状態値を評価することができる。
論文参考訳（メタデータ） (2022-04-20T12:16:27Z)
Relative Distributed Formation and Obstacle Avoidance with Multi-agent Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文参考訳（メタデータ） (2021-11-14T13:02:45Z)
Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。値ベースの手法では、最適な値関数を正確に表現することが課題となる。政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文参考訳（メタデータ） (2021-05-31T23:08:05Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。