Fugu-MT 論文翻訳(概要): Safety-Aware Multi-Agent Apprenticeship Learning

論文の概要: Safety-Aware Multi-Agent Apprenticeship Learning

arxiv url: http://arxiv.org/abs/2201.08111v2
Date: Mon, 24 Jan 2022 17:16:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-25 12:39:25.735241
Title: Safety-Aware Multi-Agent Apprenticeship Learning
Title（参考訳）: 安全を意識したマルチエージェント見習い学習
Authors: Junchen Zhao
Abstract要約: 本研究の目的は,論文「セーフティ・アウェア・アレンツェシーシップ・ラーニング」に記載されている技術に基づく拡張を行うことである。最初の貢献は、マルチエージェントシナリオにおける専門家の行動から安全な報酬関数を抽出することを検討することである。第2のコントリビューションは、Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し、最後に拡張に基づいて新しいLearning Frameworkを設計することです。
参考スコア（独自算出の注目度）: 2.0305676256390934
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Our objective of this project is to make the extension based on the technique mentioned in the paper "Safety-Aware Apprenticeship Learning" to improve the utility and the efficiency of the existing Reinforcement Learning model from a Single-Agent Learning framework to a Multi-Agent Learning framework. Our contributions to the project are presented in the following bullet points: 1. Regarding the fact that we will add an extension to the Inverse Reinforcement Learning model from a Single-Agent scenario to a Multi-Agentscenario. Our first contribution to this project is considering the case of extracting safe reward functions from expert behaviors in a Multi-Agent scenario instead of being from the Single-Agent scenario. 2. Our second contribution is extending the Single-Agent Learning Framework to a Multi-Agent Learning framework and designing a novel Learning Framework based on the extension in the end. 3. Our final contribution to this project is evaluating empirically the performance of my extension to the Single-Agent Inverse Reinforcement Learning framework.
Abstract（参考訳）: 本研究の目的は,シングルエージェント学習フレームワークからマルチエージェント学習フレームワークへ,既存の強化学習モデルの有用性と効率を向上させるため,論文"safety-aware apprenticeship learning"で述べた手法に基づく拡張を行うことである。プロジェクトへの私たちの貢献は、以下の点で示されています。 1. 単エージェントシナリオから多エージェントシナリオへの逆強化学習モデルの拡張を行う。このプロジェクトへの最初の貢献は、シングルエージェントシナリオからではなく、マルチエージェントシナリオで専門家の振る舞いから安全な報酬関数を抽出するケースを検討することです。第2のコントリビューションは,Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し,最後に拡張に基づいて新しいLearning Frameworkを設計することです。 3. このプロジェクトへの最終的な貢献は、私がSingle-Agent Inverse Reinforcement Learningフレームワークの拡張のパフォーマンスを経験的に評価することです。

関連論文リスト

Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文参考訳（メタデータ） (2025-12-18T21:58:19Z)
Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文参考訳（メタデータ） (2025-12-05T10:02:38Z)
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning [45.88626187315028]
大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
論文参考訳（メタデータ） (2025-11-18T13:03:15Z)
Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.23228612512848]
大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-12T08:42:05Z)
Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-02-24T05:56:47Z)
LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文参考訳（メタデータ） (2024-12-02T17:10:16Z)
APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文参考訳（メタデータ） (2024-11-26T09:31:28Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Two-stage Learning-to-Defer for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクの両方を包含するマルチタスク学習のためのLearning-to-Deferアプローチを提案する。我々の2段階のアプローチでは、事前訓練された共同回帰モデルと1つ以上の外部の専門家のうち、最も正確なエージェントに決定を下すリジェクターを使用します。
論文参考訳（メタデータ） (2024-10-21T07:44:57Z)
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文参考訳（メタデータ） (2024-09-17T17:54:17Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Reframing the Relationship in Out-of-Distribution Detection [4.182518087792777]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する新しいアプローチを提案する。提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文参考訳（メタデータ） (2024-05-27T02:27:28Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
Agent Lumos: Unified and Modular Training for Open-Source Language Agents [89.78556964988852]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。 LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文参考訳（メタデータ） (2023-11-09T00:30:13Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。