Fugu-MT 論文翻訳(概要): MACOptions: Multi-Agent Learning with Centralized Controller and Options Framework

論文の概要: MACOptions: Multi-Agent Learning with Centralized Controller and Options Framework

arxiv url: http://arxiv.org/abs/2302.03800v1
Date: Tue, 7 Feb 2023 23:32:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-09 17:51:09.980892
Title: MACOptions: Multi-Agent Learning with Centralized Controller and Options Framework
Title（参考訳）: MACOptions: 集中型コントローラとオプションフレームワークによるマルチエージェント学習
Authors: Alakh Aggarwal, Rishita Bansal, Parth Padalkar, Sriraam Natarajan
Abstract要約: 集中型コントローラによるマルチエージェントの計画の実装を計画している。ランダムポリシー、Qラーニング、およびオプションフレームワークによるQラーニングの3つのアプローチを比較した。
参考スコア（独自算出の注目度）: 10.0578867188587
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: These days automation is being applied everywhere. In every environment, planning for the actions to be taken by the agents is an important aspect. In this paper, we plan to implement planning for multi-agents with a centralized controller. We compare three approaches: random policy, Q-learning, and Q-learning with Options Framework. We also show the effectiveness of planners by showing performance comparison between Q-Learning with Planner and without Planner.
Abstract（参考訳）: 最近の自動化はどこでも適用されています。あらゆる環境において、エージェントによって取られるアクションの計画が重要な側面である。本稿では,集中型コントローラを用いたマルチエージェントの計画実装を計画する。ランダムポリシー、Qラーニング、オプションフレームワークによるQラーニングの3つのアプローチを比較した。また,プランナーによるQ-Learningとプランナーによる性能比較を行い,プランナーを使わずにプランナーの有効性を示す。

関連論文リスト

PLANET: A Collection of Benchmarks for Evaluating LLMs' Planning Capabilities [7.36760703426119]
計画はエージェントとエージェントAIの中心である。これまでのところ、既存の計画ベンチマークに対する包括的な理解は欠如しているようだ。本稿では,アルゴリズム開発によく使用されるテストベッドを特定するための,様々な計画ベンチマークについて検討する。
論文参考訳（メタデータ） (2025-04-21T00:02:50Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
Digi-Q: Learning Q-Value Functions for Training Device-Control Agents [73.60512136881279]
Digi-QはVLMベースのアクション値Q関数を訓練し、エージェントポリシーを抽出する。 Digi-Qは、Android-in-the-Wildのユーザスケールデバイス制御タスクにおいて、いくつかの従来手法より優れている。
論文参考訳（メタデータ） (2025-02-13T18:55:14Z)
Octo-planner: On-device Language Model for Planner-Action Agents [19.627197141903505]
Planner-Actionフレームワークは、計画とアクションの実行を2つの異なるコンポーネントに分離する。 Agentはまず、タスクをサブステップのシーケンスに分解してユーザクエリに応答し、アクションエージェントによって実行される。我々は、文脈内学習の代わりにモデル微調整を採用し、計算コストとエネルギー消費を削減した。
論文参考訳（メタデータ） (2024-06-26T05:40:10Z)
Learning to Select Goals in Automated Planning with Deep-Q Learning [7.373617024876726]
本稿では,Deep Q-Learning を用いたサブゴール選択を学習するモジュールを組み込んだ計画と実行アーキテクチャを提案する。我々はこのアーキテクチャを、インテリジェントなシステムアプリケーションのための標準的なテストベッドとして使用されるビデオゲーム環境で訓練した。
論文参考訳（メタデータ） (2024-06-20T23:02:44Z)
Online Pareto-Optimal Decision-Making for Complex Tasks using Active Inference [14.470714123175972]
本稿では,多目的強化学習のための新しいフレームワークを提案する。安全なタスク実行を保証し、目的間のトレードオフを最適化し、ユーザの好みに準拠します。操作と移動ロボットのケーススタディとベンチマークは、我々のフレームワークが他の方法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-17T18:03:45Z)
AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文参考訳（メタデータ） (2024-01-10T16:57:24Z)
On Computing Universal Plans for Partially Observable Multi-Agent Path Finding [11.977931648859176]
汎用計画問題としてマルチエージェントルーティング問題を定式化することは有益である,と我々は主張する。 ASP-MAUPF (Answer Set Programming for Multi-Agent Universal Plan Finding) と呼ばれるシステムを実装した。
論文参考訳（メタデータ） (2023-05-25T16:06:48Z)
Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文参考訳（メタデータ） (2022-12-30T12:32:43Z)
Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文参考訳（メタデータ） (2022-12-20T10:47:53Z)
Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文参考訳（メタデータ） (2022-12-15T17:01:56Z)
Multi-Job Intelligent Scheduling with Cross-Device Federated Learning [65.69079337653994]
フェデレートラーニング(FL)は、センシティブな生データを共有せずに、協調的なグローバル機械学習モデルのトレーニングを可能にする。本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。本稿では,元来の強化学習に基づくスケジューリング手法と元来のベイズ最適化に基づくスケジューリング手法を含む,複数のスケジューリング手法に基づく新しいインテリジェントスケジューリング手法を提案する。
論文参考訳（メタデータ） (2022-11-24T06:17:40Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
Improving Search by Utilizing State Information in OPTIC Planners Compilation to LP [1.9686770963118378]
多くのプランナーはドメインに依存しないので、さまざまなドメインにデプロイできる。これらのプランナーは、Forward Searchを実行し、リニアプログラミング(LP)ソルバを複数の状態に呼び出して、一貫性を確認し、数値変数にバウンダリを設定する。本稿では, 評価中の特定の状態に関する情報を同定し, 方程式の定式化により, より優れた解法選択と高速なLP解法を実現する方法を提案する。
論文参考訳（メタデータ） (2021-06-15T07:23:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。