論文の概要: Safety-Aware Multi-Agent Apprenticeship Learning
- arxiv url: http://arxiv.org/abs/2201.08111v2
- Date: Mon, 24 Jan 2022 17:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 12:39:25.735241
- Title: Safety-Aware Multi-Agent Apprenticeship Learning
- Title(参考訳): 安全を意識したマルチエージェント見習い学習
- Authors: Junchen Zhao
- Abstract要約: 本研究の目的は,論文「セーフティ・アウェア・アレンツェシーシップ・ラーニング」に記載されている技術に基づく拡張を行うことである。
最初の貢献は、マルチエージェントシナリオにおける専門家の行動から安全な報酬関数を抽出することを検討することである。
第2のコントリビューションは、Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し、最後に拡張に基づいて新しいLearning Frameworkを設計することです。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Our objective of this project is to make the extension based on the technique
mentioned in the paper "Safety-Aware Apprenticeship Learning" to improve the
utility and the efficiency of the existing Reinforcement Learning model from a
Single-Agent Learning framework to a Multi-Agent Learning framework. Our
contributions to the project are presented in the following bullet points: 1.
Regarding the fact that we will add an extension to the Inverse Reinforcement
Learning model from a Single-Agent scenario to a Multi-Agentscenario. Our first
contribution to this project is considering the case of extracting safe reward
functions from expert behaviors in a Multi-Agent scenario instead of being from
the Single-Agent scenario. 2. Our second contribution is extending the
Single-Agent Learning Framework to a Multi-Agent Learning framework and
designing a novel Learning Framework based on the extension in the end. 3. Our
final contribution to this project is evaluating empirically the performance of
my extension to the Single-Agent Inverse Reinforcement Learning framework.
- Abstract(参考訳): 本研究の目的は,シングルエージェント学習フレームワークからマルチエージェント学習フレームワークへ,既存の強化学習モデルの有用性と効率を向上させるため,論文"safety-aware apprenticeship learning"で述べた手法に基づく拡張を行うことである。
プロジェクトへの私たちの貢献は、以下の点で示されています。
1. 単エージェントシナリオから多エージェントシナリオへの逆強化学習モデルの拡張を行う。
このプロジェクトへの最初の貢献は、シングルエージェントシナリオからではなく、マルチエージェントシナリオで専門家の振る舞いから安全な報酬関数を抽出するケースを検討することです。
第2のコントリビューションは,Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し,最後に拡張に基づいて新しいLearning Frameworkを設計することです。
3. このプロジェクトへの最終的な貢献は、私がSingle-Agent Inverse Reinforcement Learningフレームワークの拡張のパフォーマンスを経験的に評価することです。
関連論文リスト
- Learning to Use Tools via Cooperative and Interactive Agents [61.662788490607475]
ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。
既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。
本研究では,協調型対話型エージェントフレームワークであるConAgentsを提案し,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化する。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Utility-Based Reinforcement Learning: Unifying Single-objective and
Multi-objective Reinforcement Learning [3.292607871053364]
実用性に基づくパラダイムを、単目的強化学習(RL)の文脈に拡張する。
本稿では,不確実な目標,リスク認識型RL,割引,安全RLに関連するタスクに対して,多目的学習を行う能力などの潜在的なメリットについて概説する。
また、ユーティリティベースのアプローチを採用する際のアルゴリズム的意味についても検討する。
論文 参考訳(メタデータ) (2024-02-05T01:42:28Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Agent Lumos: Unified and Modular Training for Open-Source Language
Agents [93.16203525451985]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM
Agents [0.0]
本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(LLM)の能力向上のための新しいフレームワークを提案する。
本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特有な属性と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。
論文 参考訳(メタデータ) (2023-06-05T23:55:37Z) - Toward Policy Explanations for Multi-Agent Reinforcement Learning [18.33682005623418]
MARLのための2種類のポリシー記述を生成するための新しい手法を提案する。
3つのMARL領域の実験結果から,提案手法のスケーラビリティが実証された。
ユーザスタディでは、生成された説明がユーザパフォーマンスを著しく改善し、ユーザ満足度などの指標に対する主観的評価が向上することを示した。
論文 参考訳(メタデータ) (2022-04-26T20:07:08Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。