論文の概要: Zero-shot adaptable task planning for autonomous construction robots: a comparative study of lightweight single and multi-AI agent systems
- arxiv url: http://arxiv.org/abs/2601.14091v1
- Date: Tue, 20 Jan 2026 15:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.394245
- Title: Zero-shot adaptable task planning for autonomous construction robots: a comparative study of lightweight single and multi-AI agent systems
- Title(参考訳): 自律型建設ロボットのゼロショット適応型タスクプランニング : 軽量シングルエージェントとマルチAIエージェントシステムの比較研究
- Authors: Hossein Naderi, Alireza Shojaei, Lifu Huang, Philip Agee, Kereshmeh Afsari, Abiola Akanmu,
- Abstract要約: 本研究では,建設ロボットにおけるタスク計画の適応性と一般化性を高める基礎モデルの可能性について検討する。
軽量でオープンソースの大言語モデル(LLM)と視覚言語モデル(VLM)の4つのモデルが提案され,実装されている。
その結果,4歳以上のチームは,最先端のGPT-4oを10倍の費用対効果で上回る結果が得られた。
- 参考スコア(独自算出の注目度): 23.277959576616407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robots are expected to play a major role in the future construction industry but face challenges due to high costs and difficulty adapting to dynamic tasks. This study explores the potential of foundation models to enhance the adaptability and generalizability of task planning in construction robots. Four models are proposed and implemented using lightweight, open-source large language models (LLMs) and vision language models (VLMs). These models include one single agent and three multi-agent teams that collaborate to create robot action plans. The models are evaluated across three construction roles: Painter, Safety Inspector, and Floor Tiling. Results show that the four-agent team outperforms the state-of-the-art GPT-4o in most metrics while being ten times more cost-effective. Additionally, teams with three and four agents demonstrate the improved generalizability. By discussing how agent behaviors influence outputs, this study enhances the understanding of AI teams and supports future research in diverse unstructured environments beyond construction.
- Abstract(参考訳): ロボットは将来の建設産業において大きな役割を果たすことが期待されているが、高コストと動的タスクへの適応が難しいため、課題に直面している。
本研究では,建設ロボットにおけるタスク計画の適応性と一般化性を高める基礎モデルの可能性について検討する。
軽量でオープンソースの大言語モデル (LLM) と視覚言語モデル (VLM) を用いて, 4つのモデルが提案され, 実装されている。
これらのモデルには、ロボットアクションプランを作成するために協力する1つのエージェントと3つのマルチエージェントチームが含まれる。
モデルは、Painter、Safety Inspector、Floor Tilingの3つの建設役割で評価されている。
その結果,4歳以上のチームは,最先端のGPT-4oを10倍の費用対効果で上回る結果が得られた。
さらに、3と4のエージェントを持つチームは、より優れた一般化可能性を示している。
エージェントの振る舞いがアウトプットにどのように影響するかを議論することで、この研究はAIチームの理解を高め、建設以外の多様な非構造環境における将来の研究を支援する。
関連論文リスト
- Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction [0.4786416643636131]
大規模言語モデル(LLM)や視覚言語モデル(VLM)を含む基礎モデルは、ロボットの自律性とヒューマンロボットインタフェースに対する新しいアプローチを実現した。
並行して、視覚言語行動モデル(VLA)や大型行動モデル(LBM)は、ロボットシステムのデクスタリティと能力を高めている。
論文 参考訳(メタデータ) (2025-08-07T11:48:03Z) - Evaluation of Habitat Robotics using Large Language Models [0.1333283959406959]
メタPartNERベンチマークを用いて,ロボットタスクの具体化における大規模言語モデルの有効性を評価する。
以上の結果から,OpenAI O3-miniのような推論モデルは,OpenAI GPT-4oやLlama 3といった非推論モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-07-08T16:39:39Z) - Multi-Agent Systems for Robotic Autonomy with LLMs [7.113794752528622]
このフレームワークには、タスクアナリスト、ロボットデザイナ、強化学習デザイナの3つのコアエージェントが含まれている。
提案システムでは,適切なタスク入力が提供された場合に,制御戦略で実現可能なロボットを設計できることが実証された。
論文 参考訳(メタデータ) (2025-05-09T03:52:37Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
ペットに匹敵するアジリティで多様なコマンドに従うように設計されたQuadrupedGPTを紹介します。
エージェントは多種多様なタスクを処理し,複雑な指示を行う能力を示し,多種多様四重化エージェントの開発に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。