論文の概要: RoboInspector: Unveiling the Unreliability of Policy Code for LLM-enabled Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2508.21378v1
- Date: Fri, 29 Aug 2025 07:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.949111
- Title: RoboInspector: Unveiling the Unreliability of Policy Code for LLM-enabled Robotic Manipulation
- Title(参考訳): ロボインスペクタ:LDM対応ロボットマニピュレーションのためのポリシーコードの信頼性の低下
- Authors: Chenduo Ying, Linkang Du, Peng Cheng, Yuanchao Shu,
- Abstract要約: 大規模言語モデル(LLM)は、推論とコード生成において顕著な能力を示す。
進歩にも拘わらず、信頼性の高いポリシコード生成を実現することは、さまざまな要件のために依然として大きな課題である。
LLM対応ロボット操作におけるポリシーコードの信頼性の欠如を明らかにするパイプラインであるRoboInspectorを紹介する。
- 参考スコア(独自算出の注目度): 7.650053106303868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable capabilities in reasoning and code generation, enabling robotic manipulation to be initiated with just a single instruction. The LLM carries out various tasks by generating policy code required to control the robot. Despite advances in LLMs, achieving reliable policy code generation remains a significant challenge due to the diverse requirements of real-world tasks and the inherent complexity of user instructions. In practice, different users may provide distinct instructions to drive the robot for the same task, which may cause the unreliability of policy code generation. To bridge this gap, we design RoboInspector, a pipeline to unveil and characterize the unreliability of the policy code for LLM-enabled robotic manipulation from two perspectives: the complexity of the manipulation task and the granularity of the instruction. We perform comprehensive experiments with 168 distinct combinations of tasks, instructions, and LLMs in two prominent frameworks. The RoboInspector identifies four main unreliable behaviors that lead to manipulation failure. We provide a detailed characterization of these behaviors and their underlying causes, giving insight for practical development to reduce unreliability. Furthermore, we introduce a refinement approach guided by failure policy code feedback that improves the reliability of policy code generation by up to 35% in LLM-enabled robotic manipulation, evaluated in both simulation and real-world environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論とコード生成において顕著な能力を示し、単一の命令だけでロボット操作を開始することができる。
LLMは、ロボットを制御するために必要なポリシーコードを生成することで、様々なタスクを実行する。
LLMの進歩にもかかわらず、実際のタスクの多様な要求とユーザ命令の固有の複雑さのために、信頼性の高いポリシーコード生成を実現することは大きな課題である。
実際には、異なるユーザが同じタスクのためにロボットを駆動するための個別の指示を提供する可能性があるため、ポリシーコード生成の信頼性が低下する可能性がある。
このギャップを埋めるために、我々は、操作タスクの複雑さと命令の粒度という2つの視点から、LLM対応ロボット操作のためのポリシーコードの信頼性の欠如を明らかにし特徴付けるパイプラインであるRoboInspectorを設計した。
我々は2つの著名なフレームワークで168の異なるタスク、命令、LLMの組み合わせで包括的な実験を行う。
Robo Inspectorは、操作障害につながる4つの主要な信頼性の低い動作を特定する。
我々は,これらの行動とその根本原因を詳細に把握し,信頼性の低下を図るための実践的開発について考察する。
さらに,LLM対応ロボット操作におけるポリシコード生成の信頼性を最大35%向上し,シミュレーションと実環境の両方で評価する,フェールポリシーコードフィードバックによる改善手法を提案する。
関連論文リスト
- An Effective Approach to Embedding Source Code by Combining Large Language and Sentence Embedding Models [6.976968804436321]
本稿では,大言語と文埋め込みモデルを組み合わせた新しいソースコード埋め込み手法を提案する。
提案手法の性能を評価するため,異なるプログラミング言語を用いた3つのデータセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs [42.31298987176411]
プログラム実行中にタスク固有のシミュレーション環境をオンザフライで合成するROBO-INSTRUCTを提案する。
ROBO-INSTRUCT は LLM に支援された後処理の手順を統合し,ロボットプログラムとの整合性を向上する。
論文 参考訳(メタデータ) (2024-05-30T15:47:54Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。