論文の概要: CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2605.02600v1
- Date: Mon, 04 May 2026 13:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.313163
- Title: CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation
- Title(参考訳): Coral: ロボットマニピュレーションのためのコンタクトリッチ適応LDM制御
- Authors: Berk Çiçek, Mert K. Er, Özgür S. Öğüz,
- Abstract要約: 大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は高レベルの推論と意味理解において顕著な能力を示す。
我々は,低レベル制御から高レベル推論を分離することでゼロショット計画を可能にするモジュラーフレームワークであるCoRALを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) and Vision-Language Models (VLMs) demonstrate remarkable capabilities in high-level reasoning and semantic understanding, applying them directly to contact-rich manipulation remains a challenge due to their lack of explicit physical grounding and inability to perform adaptive control. To bridge this gap, we propose CoRAL (Contact-Rich Adaptive LLM-based control), a modular framework that enables zero-shot planning by decoupling high-level reasoning from low-level control. Unlike black-box policies, CoRAL uses LLMs not as direct controllers, but as cost designers that synthesize context-aware objective functions for a sampling-based motion planner (MPPI). To address the ambiguity of physical parameters in visual data, we introduce a neuro-symbolic adaptation loop: a VLM provides semantic priors for environmental dynamics, such as mass and friction estimates, which are then explicitly refined in real time via online system identification, while the LLM iteratively modulates the cost-function structure to correct strategic errors based on interaction feedback. Furthermore, a retrieval-based memory unit allows the system to reuse successful strategies across recurrent tasks. This hierarchical architecture ensures real-time control stability by decoupling high-level semantic reasoning from reactive execution, effectively bridging the gap between slow LLM inference and dynamic contact requirements. We validate CoRAL on both simulation and real-world hardware across challenging and novel tasks, such as flipping objects against walls by leveraging extrinsic contacts. Experiments demonstrate that CoRAL outperforms state-of-the-art VLA and foundation-model-based planner baselines by boosting success rates over 50% on average in unseen contact-rich scenarios, effectively handling sim-to-real gaps through its adaptive physical understanding.
- Abstract(参考訳): 大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は、高レベルの推論と意味理解において顕著な能力を示すが、それらを直接コンタクトリッチな操作に適用することは、明示的な物理的基盤の欠如と適応制御を行うことができないため、依然として課題である。
このギャップを埋めるため、我々は低レベル制御から高レベル推論を分離することでゼロショット計画を可能にするモジュラーフレームワークであるCoRAL(Contact-Rich Adaptive LLM-based Control)を提案する。
ブラックボックスのポリシーとは異なり、CoRALは直接コントローラとしてではなく、サンプリングベースのモーションプランナー(MPPI)のためにコンテキスト対応の客観的関数を合成するコストデザイナとしてLLMを使用している。
視覚データにおける物理パラメータのあいまいさに対処するため、我々はニューロシンボリック適応ループを導入する: VLMは、質量推定や摩擦推定などの環境力学のセマンティックな事前情報を提供し、オンラインシステム識別によってリアルタイムで明確に洗練され、LLMはコスト関数構造を反復的に修正し、相互作用フィードバックに基づいて戦略的エラーを補正する。
さらに、検索ベースのメモリユニットにより、リカレントタスク間で成功した戦略を再利用することができる。
この階層アーキテクチャは、リアクティブ実行から高レベルのセマンティック推論を分離することで、リアルタイム制御の安定性を確保し、遅いLCM推論と動的接触要求のギャップを効果的に埋める。
我々はCoralをシミュレーションと現実世界のハードウェアの両方で検証し、外在的接触を利用してオブジェクトを壁に反転させるといった、挑戦的で斬新なタスクにまたがる検証を行った。
実験により、CoRALは最先端のVLAとファンデーションモデルベースのプランナーベースラインを上回り、目に見えないコンタクトリッチなシナリオで平均50%以上の成功率を高め、適応的な物理的理解を通じてシミュレートと現実のギャップを効果的に扱えることを示した。
関連論文リスト
- LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models [112.82269746694004]
textbfLaST-R1は,動作実行前に物理力学を推論する潜在チェーン・オブ・ソート(CoT)を統合した統合VLAフレームワークである。
LAPOは物理世界モデリングの表現を改善し、対話環境における堅牢性を高める。
LaST-R1は、LIBEROベンチマークで99.8%の平均的な成功率を達成した。
論文 参考訳(メタデータ) (2026-04-30T17:59:52Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - LLMs-guided adaptive compensator: Bringing Adaptivity to Automatic Control Systems with Large Language Models [22.989496527440636]
大規模言語モデル(LLM)はロボット工学にますます応用されている。
コントローラをスクラッチから設計するのを避けるLLM誘導適応補償フレームワークを提案する。
本研究では,LLMを自動制御の分野に適用するための新たな方向性を開拓する。
論文 参考訳(メタデータ) (2025-07-28T04:12:43Z) - RALLY: Role-Adaptive LLM-Driven Yoked Navigation for Agentic UAV Swarms [17.931091064654904]
役割適応型LCM駆動ヨードナビゲーションアルゴリズムをアラリカルに開発する。
RALLYは構造化自然言語を用いて効率的な意味コミュニケーションと協調推論を行う。
実験の結果, タスクカバレッジ, 収束速度, 一般化の点で, 従来手法よりも有意な性能を示した。
論文 参考訳(メタデータ) (2025-07-02T05:44:17Z) - LLMs for sensory-motor control: Combining in-context and iterative learning [0.0]
本研究では,連続的な観察ベクトルを直接連続的な行動ベクトルにマッピングすることにより,大規模言語モデルによるエンボディエージェントの制御を可能にする手法を提案する。
この方法は、Gymnasiumライブラリの古典的な制御タスクと MuJoCoライブラリの逆振り子タスクで検証される。
エージェントが環境と相互作用するときに収集された準記号的感覚運動データと推論によって導かれる記号的知識を統合することにより、最適あるいは準最適解をうまく識別する。
論文 参考訳(メタデータ) (2025-06-05T10:38:28Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Foundation Models to the Rescue: Deadlock Resolution in Connected Multi-Robot Systems [11.012092202226855]
接続型マルチエージェントロボットシステム(MRS)は、障害物環境下でデッドロックする傾向がある。
本稿では,大規模言語モデル (LLM) やテキスト・アンド・イメージモデル (VLM) をデッドロック解像度の高レベルプランナとして用いる可能性について検討する。
本稿では,基礎モデルに基づくハイレベルプランナが,MSSのリーダーをMSSのリーダーに割り当てることでデッドロックの解決を支援する階層的制御フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T16:03:26Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。