論文の概要: Hierarchical DLO Routing with Reinforcement Learning and In-Context Vision-language Models
- arxiv url: http://arxiv.org/abs/2510.19268v1
- Date: Wed, 22 Oct 2025 05:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.145601
- Title: Hierarchical DLO Routing with Reinforcement Learning and In-Context Vision-language Models
- Title(参考訳): 強化学習と文脈内視覚言語モデルを用いた階層型DLOルーティング
- Authors: Mingen Li, Houjian Yu, Yixuan Huang, Youngjin Hong, Changhyun Choi,
- Abstract要約: 変形可能な線形物体(DLO)の長距離ルーティングタスクは,産業用組立ラインや日常生活で一般的である。
DLOルーティングタスクの課題を解決するための,完全自律的階層型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.323279440736645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon routing tasks of deformable linear objects (DLOs), such as cables and ropes, are common in industrial assembly lines and everyday life. These tasks are particularly challenging because they require robots to manipulate DLO with long-horizon planning and reliable skill execution. Successfully completing such tasks demands adapting to their nonlinear dynamics, decomposing abstract routing goals, and generating multi-step plans composed of multiple skills, all of which require accurate high-level reasoning during execution. In this paper, we propose a fully autonomous hierarchical framework for solving challenging DLO routing tasks. Given an implicit or explicit routing goal expressed in language, our framework leverages vision-language models~(VLMs) for in-context high-level reasoning to synthesize feasible plans, which are then executed by low-level skills trained via reinforcement learning. To improve robustness in long horizons, we further introduce a failure recovery mechanism that reorients the DLO into insertion-feasible states. Our approach generalizes to diverse scenes involving object attributes, spatial descriptions, as well as implicit language commands. It outperforms the next best baseline method by nearly 50% and achieves an overall success rate of 92.5% across long-horizon routing scenarios.
- Abstract(参考訳): ケーブルやロープなどの変形可能な線形物体(DLO)の長距離ルーティングタスクは,産業用組立ラインや日常生活で一般的である。
これらのタスクは、ロボットが長期計画と信頼性の高いスキル実行でDLOを操作する必要があるため、特に難しい。
このようなタスクを成功させるためには、彼らの非線形力学に適応し、抽象的なルーティング目標を分解し、複数のスキルで構成された多段階計画を生成する必要がある。
本稿では,DLOルーティングタスクの課題を解決するための,完全自律型階層型フレームワークを提案する。
言語で表現された暗黙的あるいは明示的なルーティング目標が与えられた場合、我々のフレームワークは、文脈内高レベル推論に視覚言語モデル~(VLM)を活用して実行可能なプランを合成し、強化学習を通じて訓練された低レベルスキルによって実行される。
長い水平線におけるロバスト性を改善するために,DLOを挿入可能な状態に再配置する障害回復機構を導入する。
提案手法は,オブジェクト属性や空間記述,暗黙的な言語コマンドを含む多様な場面に一般化する。
これは次の最良のベースライン法を50%近く上回り、長距離ルーティングのシナリオで92.5%の成功率を達成した。
関連論文リスト
- Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning [11.179019629415514]
$infty$-THORは、エンボディドAIにおける長期コンテキスト理解を促進する、長期的なエンボディドタスクのための新しいフレームワークである。
a new embodied QA task, Needle(s) in the Embodied Haystack, (3) long-horizon dataset and benchmark suite。
論文 参考訳(メタデータ) (2025-05-22T17:20:38Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [62.854649499866774]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Nl2Hltl2Plan: Scaling Up Natural Language Understanding for Multi-Robots Through Hierarchical Temporal Logic Task Representation [8.180994118420053]
Nl2Hltl2Planは自然言語コマンドを階層線形時間論理(LTL)に変換するフレームワーク
まず、LLMは命令を階層的なタスクツリーに変換し、論理的および時間的関係をキャプチャする。
次に、微調整されたLLMは、サブタスクをフラットな公式に変換し、階層的な仕様に集約する。
論文 参考訳(メタデータ) (2024-08-15T14:46:13Z) - From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。
methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文 参考訳(メタデータ) (2024-05-08T04:14:06Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。