Fugu-MT 論文翻訳(概要): Effective and Stable Role-Based Multi-Agent Collaboration by Structural Information Principles

論文の概要: Effective and Stable Role-Based Multi-Agent Collaboration by Structural Information Principles

arxiv url: http://arxiv.org/abs/2304.00755v1
Date: Mon, 3 Apr 2023 07:13:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 16:26:26.271177
Title: Effective and Stable Role-Based Multi-Agent Collaboration by Structural Information Principles
Title（参考訳）: 構造情報原理による効果的で安定な役割ベース多エージェント協調
Authors: Xianghua Zeng, Hao Peng, Angsheng Li
Abstract要約: 本稿では,役割発見のための数学的構造情報に基づく役割発見法,すなわちSIRDを提案する。次に,マルチエージェント協調のためのSIRD最適化型マルチエージェント強化学習フレームワークSR-MARLを提案する。具体的には、SIRDは構造化、スパーシフィケーション、最適化モジュールで構成され、最適なエンコーディングツリーを生成して、役割を発見するための抽象化を実行する。
参考スコア（独自算出の注目度）: 24.49065333729887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Role-based learning is a promising approach to improving the performance of Multi-Agent Reinforcement Learning (MARL). Nevertheless, without manual assistance, current role-based methods cannot guarantee stably discovering a set of roles to effectively decompose a complex task, as they assume either a predefined role structure or practical experience for selecting hyperparameters. In this article, we propose a mathematical Structural Information principles-based Role Discovery method, namely SIRD, and then present a SIRD optimizing MARL framework, namely SR-MARL, for multi-agent collaboration. The SIRD transforms role discovery into a hierarchical action space clustering. Specifically, the SIRD consists of structuralization, sparsification, and optimization modules, where an optimal encoding tree is generated to perform abstracting to discover roles. The SIRD is agnostic to specific MARL algorithms and flexibly integrated with various value function factorization approaches. Empirical evaluations on the StarCraft II micromanagement benchmark demonstrate that, compared with state-of-the-art MARL algorithms, the SR-MARL framework improves the average test win rate by 0.17%, 6.08%, and 3.24%, and reduces the deviation by 16.67%, 30.80%, and 66.30%, under easy, hard, and super hard scenarios.
Abstract（参考訳）: ロールベース学習はマルチエージェント強化学習(marl)の性能を向上させるための有望なアプローチである。しかしながら、現在のロールベースのメソッドでは、事前に定義されたロール構造か、ハイパーパラメータを選択するための実践的な経験のいずれかを前提として、複雑なタスクを効果的に分解する一連のロールを安定して発見することは保証できない。本稿では、SIRDという数学的構造情報原理に基づくロールディスカバリ手法を提案し、マルチエージェント協調のためのSIRD最適化MARLフレームワーク、SR-MARLを提案する。 SIRDはロール発見を階層的なアクション空間クラスタリングに変換する。具体的には、SIRDは構造化、スパーシフィケーション、最適化モジュールで構成され、最適なエンコーディングツリーを生成して、役割を発見するための抽象化を実行する。 SIRDは特定のMARLアルゴリズムに非依存であり、様々な値関数分解アプローチと柔軟に統合される。 StarCraft IIマイクロマネジメントベンチマークの実証的な評価は、最先端のMARLアルゴリズムと比較して、SR-MARLフレームワークは平均テストの勝利率を0.17%、6.08%、3.24%改善し、容易でハードなシナリオ下では16.67%、30.80%、66.30%の偏差を減少させることを示した。

関連論文リスト

RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文参考訳（メタデータ） (2025-08-06T21:59:34Z)
Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:07:41Z)
Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文参考訳（メタデータ） (2025-04-07T15:27:37Z)
Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm [54.98788921815576]
我々は,textbfLocalityをベースとしたtextbfFactorized textbfMulti-Agent textbfActor-textbfCritic (Loc-FACMAC) という新しい協調型マルチエージェント強化学習法を提案する。我々は、局所性の概念を批判的学習に統合し、トレーニング中に強く関連するロボットが分割を形成する。提案手法は,局所的な報酬に着目し,分割型学習を活用して既存のアルゴリズムを改良し,学習効率と性能を向上させる。
論文参考訳（メタデータ） (2025-03-24T16:00:16Z)
C-3PO: Compact Plug-and-Play Proxy Optimization to Achieve Human-like Retrieval-Augmented Generation [13.120930059424975]
C-3POは、レトリバーと大規模言語モデル間の通信を容易にするプロキシ中心のフレームワークである。我々のフレームワークは、RAGパイプライン全体を協調的に最適化する3つの特殊エージェントを実装している。
論文参考訳（メタデータ） (2025-02-10T07:04:32Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Multi-agent Reinforcement Learning for Dynamic Dispatching in Material Handling Systems [5.050348337816326]
本稿では,動的ディスパッチ戦略を学習するためのマルチエージェント強化学習(MARL)手法を提案する。本手法をベンチマークするために,実システムの複雑さを反映した物質処理環境を開発した。
論文参考訳（メタデータ） (2024-09-27T03:57:54Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文参考訳（メタデータ） (2024-04-15T13:02:00Z)
Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。 3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文参考訳（メタデータ） (2024-03-08T06:38:22Z)
Learning Multiple Coordinated Agents under Directed Acyclic Graph Constraints [20.45657219304883]
本稿では,有向非巡回グラフ(DAG)制約下で複数の協調エージェントを学習する新しいマルチエージェント強化学習(MARL)法を提案する。既存のMARL手法とは異なり,本手法ではエージェント間のDAG構造を明示的に利用し,より効果的な学習性能を実現する。
論文参考訳（メタデータ） (2023-07-13T13:41:24Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-06-01T04:58:52Z)
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文参考訳（メタデータ） (2021-12-30T18:21:53Z)
Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in Cooperative Tasks [11.480994804659908]
マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
論文参考訳（メタデータ） (2020-06-14T11:22:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。