論文の概要: Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm
- arxiv url: http://arxiv.org/abs/2503.03796v2
- Date: Fri, 07 Mar 2025 08:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:50.158509
- Title: Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm
- Title(参考訳): USV Swarmにおける多エージェント強化学習のためのヒューマンインプシシット規範に基づく政策微調整
- Authors: Hyeonjun Kim, Kanghoon Lee, Junho Park, Jiachen Li, Jinkyoo Park,
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)は,エージェント間の協調や競争に関わる複雑な問題を解くことを約束している。
本稿では,エージェントレベルフィードバックシステムを用いて,MARLに対する強化学習(Reinforcement Learning with Human Feedback, RLHF)アプローチを提案する。
本手法は,マルチエージェントシステムにおいて,公平性と性能の整合性を保ちながら重要な課題に対処し,USV Swarmポリシーを効果的に改善する。
- 参考スコア(独自算出の注目度): 21.24766859509835
- License:
- Abstract: Multi-Agent Reinforcement Learning (MARL) has shown promise in solving complex problems involving cooperation and competition among agents, such as an Unmanned Surface Vehicle (USV) swarm used in search and rescue, surveillance, and vessel protection. However, aligning system behavior with user preferences is challenging due to the difficulty of encoding expert intuition into reward functions. To address the issue, we propose a Reinforcement Learning with Human Feedback (RLHF) approach for MARL that resolves credit-assignment challenges through an Agent-Level Feedback system categorizing feedback into intra-agent, inter-agent, and intra-team types. To overcome the challenges of direct human feedback, we employ a Large Language Model (LLM) evaluator to validate our approach using feedback scenarios such as region constraints, collision avoidance, and task allocation. Our method effectively refines USV swarm policies, addressing key challenges in multi-agent systems while maintaining fairness and performance consistency.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)は、捜索・救助・監視・船舶保護に使用される無人表面車両(USV)群のようなエージェント間の協力や競争に関わる複雑な問題を解決することを約束している。
しかし,システム行動とユーザの嗜好の整合性は,専門家の直観を報酬関数に符号化することが困難であるため,困難である。
そこで本研究では,MARLに対するReinforcement Learning with Human Feedback (RLHF)アプローチを提案する。
直接フィードバックの課題を克服するため,地域制約や衝突回避,タスクアロケーションといったフィードバックシナリオを用いて,Large Language Model (LLM) 評価器を用いてアプローチを検証する。
本手法は,マルチエージェントシステムにおいて,公平性と性能の整合性を保ちながら重要な課題に対処し,USV Swarmポリシーを効果的に改善する。
関連論文リスト
- D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security [22.86304661035188]
大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。
CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。
協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-15T23:43:18Z) - Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks [51.00472376469131]
多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-03-01T08:15:18Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。