論文の概要: Agent as Cerebrum, Controller as Cerebellum: Implementing an Embodied
LMM-based Agent on Drones
- arxiv url: http://arxiv.org/abs/2311.15033v1
- Date: Sat, 25 Nov 2023 14:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:19:27.264205
- Title: Agent as Cerebrum, Controller as Cerebellum: Implementing an Embodied
LMM-based Agent on Drones
- Title(参考訳): セレブラムとしてのエージェント、小脳としてのコントローラ: ドローンに具体化されたlmmベースのエージェントを実装する
- Authors: Haoran Zhao, Fengxing Pan, Huqiuyue Ping and Yaoming Zhou
- Abstract要約: 本稿では,「小脳,小脳,制御器」アーキテクチャをカプセル化した産業用ロボットエンボディエージェントのための新しいパラダイムを提案する。
当社のアプローチでは,産業環境でのドローン技術に適したエージェントフレームワークであるAeroAgent内で,LMM(Large Multimodal Models)のパワーを活用する。
- 参考スコア(独自算出の注目度): 6.366572107127356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we present a novel paradigm for industrial robotic embodied
agents, encapsulating an 'agent as cerebrum, controller as cerebellum'
architecture. Our approach harnesses the power of Large Multimodal Models
(LMMs) within an agent framework known as AeroAgent, tailored for drone
technology in industrial settings. To facilitate seamless integration with
robotic systems, we introduce ROSchain, a bespoke linkage framework connecting
LMM-based agents to the Robot Operating System (ROS). We report findings from
extensive empirical research, including simulated experiments on the Airgen and
real-world case study, particularly in individual search and rescue operations.
The results demonstrate AeroAgent's superior performance in comparison to
existing Deep Reinforcement Learning (DRL)-based agents, highlighting the
advantages of the embodied LMM in complex, real-world scenarios.
- Abstract(参考訳): 本研究では,「小脳,小脳のエージェント,小脳のコントローラ」アーキテクチャをカプセル化した産業用ロボットエンボディエージェントの新しいパラダイムを提案する。
当社のアプローチでは,産業環境でのドローン技術に適したエージェントフレームワークであるAeroAgent内で,LMM(Large Multimodal Models)のパワーを活用する。
ロボットシステムとのシームレスな統合を容易にするため,ロボットオペレーティングシステム(ROS)にLMMベースのエージェントを接続する疎結合フレームワークであるROSchainを導入する。
本研究では,Airgenおよび実世界のケーススタディ,特に個別の捜索救助活動におけるシミュレーション実験を含む広範な実証研究の成果を報告する。
その結果,既存のDeep Reinforcement Learning(DRL)ベースのエージェントと比較して,AeroAgentの優れた性能を示し,複雑な実世界のシナリオにおいて,具体化されたLMMの利点を強調した。
関連論文リスト
- Multi-Agent Geospatial Copilots for Remote Sensing Workflows [1.8241060496411214]
GeoLLM-Squadがリモートセンシング(RS)に新しいマルチエージェントパラダイムを導入
モノリシックな大規模言語モデル(LLM)に依存している既存の単一エージェントアプローチとは異なり、GeoLLM-Squadは地理的タスク解決からエージェントオーケストレーションを分離する。
我々の研究は、都市モニタリング、森林保護、気候分析、農業研究にまたがる多様なアプリケーションのモジュラー統合を可能にする。
論文 参考訳(メタデータ) (2025-01-27T17:54:31Z) - LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。
LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。
LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文 参考訳(メタデータ) (2024-12-12T12:47:09Z) - On the limits of agency in agent-based models [13.130587222524305]
エージェントベースモデリングは複雑なシステムに対する強力な洞察を提供するが、その実用性は計算の制約によって制限されている。
大規模言語モデル(LLM)の最近の進歩は、適応エージェントによるABMを強化する可能性があるが、大規模なシミュレーションへの統合は依然として困難である。
大規模シミュレーションにおいて,行動複雑性と計算効率のバランスをとる手法であるLSMアーチタイプを提案する。
論文 参考訳(メタデータ) (2024-09-14T04:17:24Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは進化的アルゴリズムによって専門家エージェントをマルチエージェントシステムに自動的に拡張する汎用的な手法である。
EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。