論文の概要: Intent-Driven LLM Ensemble Planning for Flexible Multi-Robot Disassembly: Demonstration on EV Batteries
- arxiv url: http://arxiv.org/abs/2510.17576v1
- Date: Mon, 20 Oct 2025 14:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.481596
- Title: Intent-Driven LLM Ensemble Planning for Flexible Multi-Robot Disassembly: Demonstration on EV Batteries
- Title(参考訳): フレキシブルマルチロボットのインテント駆動型LCMアンサンブル計画:EV電池の実証
- Authors: Cansu Erdogan, Cesar Alan Contreras, Alireza Rastegarpanah, Manolis Chiou, Rustam Stolkin,
- Abstract要約: 本稿では,複雑な操作タスクを計画する上での問題に対処する。
このようなアクションシーケンスを堅牢に構築できる意図駆動型計画パイプラインを提案する。
このパイプラインは、2つのロボットアームが協力して電気自動車のバッテリーを解体する例に基づいて評価される。
- 参考スコア(独自算出の注目度): 2.3564175619410803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of planning complex manipulation tasks, in which multiple robots with different end-effectors and capabilities, informed by computer vision, must plan and execute concatenated sequences of actions on a variety of objects that can appear in arbitrary positions and configurations in unstructured scenes. We propose an intent-driven planning pipeline which can robustly construct such action sequences with varying degrees of supervisory input from a human using simple language instructions. The pipeline integrates: (i) perception-to-text scene encoding, (ii) an ensemble of large language models (LLMs) that generate candidate removal sequences based on the operator's intent, (iii) an LLM-based verifier that enforces formatting and precedence constraints, and (iv) a deterministic consistency filter that rejects hallucinated objects. The pipeline is evaluated on an example task in which two robot arms work collaboratively to dismantle an Electric Vehicle battery for recycling applications. A variety of components must be grasped and removed in specific sequences, determined by human instructions and/or by task-order feasibility decisions made by the autonomous system. On 200 real scenes with 600 operator prompts across five component classes, we used metrics of full-sequence correctness and next-task correctness to evaluate and compare five LLM-based planners (including ablation analyses of pipeline components). We also evaluated the LLM-based human interface in terms of time to execution and NASA TLX with human participant experiments. Results indicate that our ensemble-with-verification approach reliably maps operator intent to safe, executable multi-robot plans while maintaining low user effort.
- Abstract(参考訳): 本稿では、コンピュータビジョンによって情報を得た複数のエンドエフェクタと機能を持つ複数のロボットが、任意の位置に出現し、非構造化シーンで構成できる様々なオブジェクトに対して、複雑な操作タスクを計画・実行しなければならないという課題に対処する。
そこで本研究では,簡単な言語命令を用いて,人間からの様々な監督的入力の度合いで,このようなアクションシーケンスを堅牢に構築できる意図駆動型計画パイプラインを提案する。
パイプラインが統合されます。
(i)知覚テキストのシーンエンコーディング
(ii)演算子の意図に基づいて候補除去シーケンスを生成する大言語モデル(LLM)のアンサンブル。
三 定式化及び優先制約を施行するLLMベースの検証装置
(iv) 幻覚的オブジェクトを拒否する決定論的整合性フィルタ。
このパイプラインは、2つのロボットアームが協力して電気自動車のバッテリーを分解してリサイクルする例に基づいて評価される。
さまざまなコンポーネントは、人間の指示や、自律システムによってなされたタスク順序の実現可能性決定によって決定される、特定のシーケンスで把握および削除されなければならない。
5つのコンポーネントクラスに600の演算子プロンプトを持つ200の実シーンにおいて、LLMベースの5つのプランナ(パイプラインコンポーネントのアブレーション解析を含む)を評価し比較するために、フルシーケンスの正しさと次タスクの正しさのメトリクスを使用した。
また, LLMをベースとしたヒューマンインタフェースの実施時間と, NASA TLXを被験者実験で評価した。
提案手法は,ユーザ作業の少ない安全かつ実行可能なマルチロボット計画に,操作者の意図を確実にマッピングするものである。
関連論文リスト
- Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。
本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T17:33:32Z) - Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs [34.16234805577773]
プログラム実行中にタスク固有のシミュレーション環境をオンザフライで合成するROBO-INSTRUCTを提案する。
ROBO-INSTRUCT は LLM に支援された後処理の手順を統合し,ロボットプログラムとの整合性を向上する。
論文 参考訳(メタデータ) (2024-05-30T15:47:54Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。