論文の概要: Safety-AwareMulti-Agent Apprenticeship Learning
- arxiv url: http://arxiv.org/abs/2201.08111v1
- Date: Thu, 20 Jan 2022 11:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 20:41:02.187768
- Title: Safety-AwareMulti-Agent Apprenticeship Learning
- Title(参考訳): 安全アウェアマルチエージェント・アレンツェシーラーニング
- Authors: Junchen Zhao, Francesco Belardinelli
- Abstract要約: 本研究の目的は,論文「セーフティ・アウェア・アレンツェシーシップ・ラーニング」に記載されている技術に基づく拡張を行うことである。
最初の貢献は、マルチエージェントシナリオにおける専門家の行動から安全な報酬関数を抽出することを検討することである。
第2のコントリビューションは、Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し、最後に拡張に基づいて新しいLearning Frameworkを設計することです。
- 参考スコア(独自算出の注目度): 9.36345496372827
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Our objective of this project is to make the extension based on the technique
mentioned in the paper "Safety-Aware Apprenticeship Learning" to improve the
utility and the efficiency of the existing Reinforcement Learning model from a
Single-Agent Learning framework to a Multi-Agent Learning framework. Our
contributions to the project are presented in the following bullet points: 1.
Regarding the fact that we will add an extension to the Inverse Reinforcement
Learning model from a Single-Agent scenario to a Multi-Agentscenario. Our first
contribution to this project is considering the case of extracting safe reward
functions from expert behaviors in a Multi-Agent scenario instead of being from
the Single-Agent scenario. 2. Our second contribution is extending the
Single-Agent Learning Framework to a Multi-Agent Learning framework and
designing a novel Learning Framework based on the extension in the end. 3. Our
final contribution to this project is evaluating empirically the performance of
my extension to the Single-Agent Inverse Reinforcement Learning framework.
- Abstract(参考訳): 本研究の目的は,シングルエージェント学習フレームワークからマルチエージェント学習フレームワークへ,既存の強化学習モデルの有用性と効率を向上させるため,論文"safety-aware apprenticeship learning"で述べた手法に基づく拡張を行うことである。
プロジェクトへの私たちの貢献は、以下の点で示されています。
1. 単エージェントシナリオから多エージェントシナリオへの逆強化学習モデルの拡張を行う。
このプロジェクトへの最初の貢献は、シングルエージェントシナリオからではなく、マルチエージェントシナリオで専門家の振る舞いから安全な報酬関数を抽出するケースを検討することです。
第2のコントリビューションは,Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し,最後に拡張に基づいて新しいLearning Frameworkを設計することです。
3. このプロジェクトへの最終的な貢献は、私がSingle-Agent Inverse Reinforcement Learningフレームワークの拡張のパフォーマンスを経験的に評価することです。
関連論文リスト
- APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Two-stage Learning-to-Defer for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクの両方を包含するマルチタスク学習のためのLearning-to-Deferアプローチを提案する。
我々の2段階のアプローチでは、事前訓練された共同回帰モデルと1つ以上の外部の専門家のうち、最も正確なエージェントに決定を下すリジェクターを使用します。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Reframing the Relationship in Out-of-Distribution Detection [4.182518087792777]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する新しいアプローチを提案する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-27T02:27:28Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - Agent Lumos: Unified and Modular Training for Open-Source Language Agents [89.78556964988852]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。