論文の概要: From Perception to Symbolic Task Planning: Vision-Language Guided Human-Robot Collaborative Structured Assembly
- arxiv url: http://arxiv.org/abs/2601.00978v1
- Date: Fri, 02 Jan 2026 20:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.610325
- Title: From Perception to Symbolic Task Planning: Vision-Language Guided Human-Robot Collaborative Structured Assembly
- Title(参考訳): 認知から記号的タスクプランニングへ:視覚言語ガイドによる人間-ロボット協調型構造化アセンブリ
- Authors: Yanyi Chen, Min Deng,
- Abstract要約: 本研究では,人間ロボット協調型組立のための設計・評価型計画フレームワークについて紹介する。
モジュールI(Perception-to-Symbolic State,PSS)は、視覚言語モデル(VLM)ベースのエージェントを使用して、RGB-D観測を設計仕様やドメイン知識と整合させる。
モジュールII、Human-Aware Planning and Replanning (HPR)は、タスクレベルのマルチロボットの割り当てを実行し、観測された状態が期待された実行結果から逸脱した場合にのみ計画を更新します。
- 参考スコア(独自算出の注目度): 3.5396603258063752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-robot collaboration (HRC) in structured assembly requires reliable state estimation and adaptive task planning under noisy perception and human interventions. To address these challenges, we introduce a design-grounded human-aware planning framework for human-robot collaborative structured assembly. The framework comprises two coupled modules. Module I, Perception-to-Symbolic State (PSS), employs vision-language models (VLMs) based agents to align RGB-D observations with design specifications and domain knowledge, synthesizing verifiable symbolic assembly states. It outputs validated installed and uninstalled component sets for online state tracking. Module II, Human-Aware Planning and Replanning (HPR), performs task-level multi-robot assignment and updates the plan only when the observed state deviates from the expected execution outcome. It applies a minimal-change replanning rule to selectively revise task assignments and preserve plan stability even under human interventions. We validate the framework on a 27-component timber-frame assembly. The PSS module achieves 97% state synthesis accuracy, and the HPR module maintains feasible task progression across diverse HRC scenarios. Results indicate that integrating VLM-based perception with knowledge-driven planning improves robustness of state estimation and task planning under dynamic conditions.
- Abstract(参考訳): 構造化アセンブリにおけるヒューマンロボット協調(HRC)は、ノイズ知覚と人間の介入の下で、信頼性の高い状態推定と適応的なタスク計画を必要とする。
これらの課題に対処するために,人間とロボットの協調的な構成組立のための設計済みのヒューマン・アウェア・プランニング・フレームワークを導入する。
フレームワークは2つの結合モジュールから構成される。
モジュールI(Perception-to-Symbolic State,PSS)は、視覚言語モデル(VLM)ベースのエージェントを使用して、RGB-D観測を設計仕様やドメイン知識と整合させ、検証可能なシンボルアセンブリステートを合成する。
オンライン状態追跡のための検証済みのインストール済みおよびアンインストール済みのコンポーネントセットを出力する。
モジュールII、Human-Aware Planning and Replanning (HPR)は、タスクレベルのマルチロボットの割り当てを実行し、観測された状態が期待された実行結果から逸脱した場合にのみ計画を更新します。
タスクの割り当てを選択的に修正し、人間の介入の下でも計画の安定性を維持するために、最小限の変更計画ルールを適用している。
このフレームワークを27成分の木枠組立てで検証する。
PSSモジュールは97%の状態合成精度を達成し、HPRモジュールは多様なHRCシナリオで実行可能なタスク進行を維持できる。
その結果、VLMに基づく認識と知識駆動型計画の統合により、動的条件下での状態推定とタスク計画の堅牢性が向上することが示唆された。
関連論文リスト
- Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction [7.668882674013904]
人間-ロボット協調は、対話的でリアルタイムな人間の指示に基づいてロボットが動作を計画し調整できるようにすることによって、組み立て作業において重要な役割を果たす。
このような指示はしばしば言語的に曖昧で不明確であり、物理的に実現可能で協調的なロボット行動を生成することは困難である。
本稿では,VLMに基づく推論を二重補正機構で拡張するHRCフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T08:24:19Z) - TodoEvolve: Learning to Architect Agent Planning Systems [68.48983335970901]
TodoEvolveは、タスク固有の計画を自律的に合成し、動的に修正するメタプランニングパラダイムである。
PlanFactoryは異種計画パターンの共通インターフェースを提供する。
TodoEvolveは、経済的なAPIコストとランタイムオーバーヘッドを維持しながら、慎重に設計された計画モジュールを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-08T06:37:01Z) - Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Hierarchical Planning for Complex Tasks with Knowledge Graph-RAG and Symbolic Verification [5.727096041675994]
大型言語モデル(LLM)はロボットプランナーとして約束されているが、長い水平と複雑なタスクでしばしば苦労している。
本稿では,階層的計画生成のための知識グラフに基づくRAGを用いて,LLMベースのプランナを強化するニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-06T18:36:30Z) - Platform-Aware Mission Planning [50.56223680851687]
本稿では,PAMP(Platform-Aware Mission Planning)の問題を紹介する。
第1のベースラインアプローチはミッションレベルとプラットフォームレベル、第2のベースラインアプローチは抽象リファインメントループに基づいている。
提案手法の健全性と完全性を実証し,実験により検証する。
論文 参考訳(メタデータ) (2025-01-16T16:20:37Z) - Anticipate & Collab: Data-driven Task Anticipation and Knowledge-driven Planning for Human-robot Collaboration [13.631341660350028]
日々の生活活動において人間を支援するエージェントは、今後の課題を予測してより効果的に協力することができる。
データ駆動型手法はタスク予測、計画、関連する問題の最先端を表現しているが、これらの手法は資源不足と不透明である。
本稿では,人間とロボットのコラボレーションに向けたこれまでの取り組みを大幅に拡張するフレームワークであるDaTAPlanについて述べる。
論文 参考訳(メタデータ) (2024-04-04T16:52:48Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z) - Enabling Visual Action Planning for Object Manipulation through Latent
Space Roadmap [72.01609575400498]
高次元状態空間を有する複雑な操作タスクの視覚的行動計画のための枠組みを提案する。
低次元潜時空間におけるシステムダイナミクスを世界規模で捉えたグラフベースの構造であるタスク計画のためのLatent Space Roadmap(LSR)を提案する。
実ロボットで実行された2つの模擬ボックス積み重ねタスクと折り畳みタスクについて,本フレームワークの徹底的な検討を行う。
論文 参考訳(メタデータ) (2021-03-03T17:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。