論文の概要: Agentic AI for Robot Control: Flexible but still Fragile
- arxiv url: http://arxiv.org/abs/2602.13081v1
- Date: Fri, 13 Feb 2026 16:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.439086
- Title: Agentic AI for Robot Control: Flexible but still Fragile
- Title(参考訳): ロボット制御のためのエージェントAI
- Authors: Oscar Lima, Marc Vinci, Martin Günther, Marian Renz, Alexander Sung, Sebastian Stock, Johannes Brust, Lennart Niecksch, Zongyao Yi, Felix Igelbrink, Benjamin Kisliuk, Martin Atzmueller, Joachim Hertzberg,
- Abstract要約: 本稿では,推論可能な言語モデルを計画し,タスクを実行するエージェント制御システムを提案する。
i)屋内移動操作におけるテーブルトップ把握,配置,ボックス挿入(Mobipick)と,(ii)自律型農業ナビゲーション・センシング(Valdemar)の2つの設定でシステムを展開する。
- 参考スコア(独自算出の注目度): 32.43712661386947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work leverages the capabilities and commonsense priors of generative models for robot control. In this paper, we present an agentic control system in which a reasoning-capable language model plans and executes tasks by selecting and invoking robot skills within an iterative planner and executor loop. We deploy the system on two physical robot platforms in two settings: (i) tabletop grasping, placement, and box insertion in indoor mobile manipulation (Mobipick) and (ii) autonomous agricultural navigation and sensing (Valdemar). Both settings involve uncertainty, partial observability, sensor noise, and ambiguous natural-language commands. The system exposes structured introspection of its planning and decision process, reacts to exogenous events via explicit event checks, and supports operator interventions that modify or redirect ongoing execution. Across both platforms, our proof-of-concept experiments reveal substantial fragility, including non-deterministic suboptimal behavior, instruction-following errors, and high sensitivity to prompt specification. At the same time, the architecture is flexible: transfer to a different robot and task domain largely required updating the system prompt (domain model, affordances, and action catalogue) and re-binding the same tool interface to the platform-specific skill API.
- Abstract(参考訳): 最近の研究は、ロボット制御のための生成モデルの能力と常識的先行性を活用している。
本稿では,反復型プランナと実行者ループ内でロボットのスキルを選択して実行することで,推論可能な言語モデルを計画し,タスクを実行するエージェント制御システムを提案する。
システムを2つの物理ロボットプラットフォームに2つの設定で展開する。
一 屋内移動操作(Mobipick)におけるテーブルトップの把握、配置及びボックス挿入
(II)自律型農業用ナビゲーション・センシング(バルデマール)
どちらの設定も不確実性、部分的な可観測性、センサーノイズ、曖昧な自然言語コマンドを含む。
このシステムは、計画と決定プロセスの構造化されたイントロスペクションを公開し、明示的なイベントチェックを通じて外因性イベントに反応し、進行中の実行を変更またはリダイレクトするオペレータの介入をサポートする。
両プラットフォームにまたがって, 概念実証実験により, 非決定論的準最適動作, 命令追従誤差, 仕様書作成の迅速化など, 重大な脆弱性が明らかとなった。
異なるロボットとタスクドメインに転送するには、システムプロンプト(ドメインモデル、アベイランス、アクションカタログ)を更新し、同じツールインターフェースをプラットフォーム固有のスキルAPIにリバインドする必要がある。
関連論文リスト
- RACAS: Controlling Diverse Robots With a Single Agentic System [26.695876900159373]
RACAS(Robot-Agnostic Control via Agentic Systems)は、3つのモジュールが自然言語でのみ通信してクローズドループロボット制御を実現する協調型エージェントアーキテクチャである。
RACASは、ロボットの自然言語記述、利用可能なアクションの定義、タスク仕様のみを必要とする。
我々は、車輪付き地上ロボット、最近発表された新しい多関節ロボットアーム、水中車両を用いて、複数のタスクにおけるRACASを評価した。RACASは、これらの過激な異なるプラットフォームをまたいだ全てのタスクを一貫して解決し、その可能性を実証している。
論文 参考訳(メタデータ) (2026-03-05T19:25:01Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Language-Conditioned Robotic Manipulation with Fast and Slow Thinking [30.36976573047372]
我々は、人間の認知アーキテクチャを模倣してタスクを分類するフレームワーク、Fast and Slow Thinking (RFST)を紹介した。
RFSTは,1)現在のユーザ命令に基づいてどのシステムが起動されるべきかを決定する命令判別器,2)ポリシーネットワークに整合した微調整された視覚言語モデルで構成されるスロー思考システム,の2つの主要コンポーネントから構成される。
シミュレーションと実世界のシナリオの両方において,本手法が意図認識と推論を必要とする複雑なタスクを十分に管理していることを確認した。
論文 参考訳(メタデータ) (2024-01-08T19:00:32Z) - SkiROS2: A skill-based Robot Control Platform for ROS [1.4502611532302039]
ROS上でのスキルベースのロボット制御プラットフォームであるSkiROS2を紹介する。
SkiROS2は、自動タスク計画とリアクティブ実行のための階層化されたハイブリッドコントロール構造を提案する。
本研究では,SkiROS2を現場に関連付け,タスク計画,推論,多感覚入力,製造実行システムの統合,強化学習の3つの事例を概説する。
論文 参考訳(メタデータ) (2023-06-29T15:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。