論文の概要: Towards Natural Language-Driven Assembly Using Foundation Models
- arxiv url: http://arxiv.org/abs/2406.16093v1
- Date: Sun, 23 Jun 2024 12:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:04:12.771042
- Title: Towards Natural Language-Driven Assembly Using Foundation Models
- Title(参考訳): 基礎モデルを用いた自然言語駆動型アセンブリを目指して
- Authors: Omkar Joglekar, Tal Lancewicki, Shir Kozlovsky, Vladimir Tchuiev, Zohar Feldman, Dotan Di Castro,
- Abstract要約: 大規模言語モデル(LLM)と強力な視覚モデルにより、ビジョン・ランゲージ・アクションモデル(英語版)の分野での迅速な研究と開発が可能となった。
本稿では,LLMをベースとしたグローバルコントロールポリシを提案する。
このフレームワークへのLLMの統合は、言語入力の解釈と処理だけでなく、多種多様な複雑なロボット操作のための制御機構の強化においても、その重要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 11.710022685486914
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) and strong vision models have enabled rapid research and development in the field of Vision-Language-Action models that enable robotic control. The main objective of these methods is to develop a generalist policy that can control robots with various embodiments. However, in industrial robotic applications such as automated assembly and disassembly, some tasks, such as insertion, demand greater accuracy and involve intricate factors like contact engagement, friction handling, and refined motor skills. Implementing these skills using a generalist policy is challenging because these policies might integrate further sensory data, including force or torque measurements, for enhanced precision. In our method, we present a global control policy based on LLMs that can transfer the control policy to a finite set of skills that are specifically trained to perform high-precision tasks through dynamic context switching. The integration of LLMs into this framework underscores their significance in not only interpreting and processing language inputs but also in enriching the control mechanisms for diverse and intricate robotic operations.
- Abstract(参考訳): 大型言語モデル(LLM)と強力な視覚モデルにより、ロボット制御を可能にするビジョン・ランゲージ・アクションモデル(英語版)の分野での迅速な研究と開発が可能になった。
これらの手法の主な目的は、様々な実施形態を持つロボットを制御できる汎用的なポリシーを開発することである。
しかしながら、自動組立や分解などの産業用ロボットアプリケーションでは、挿入、より精度の高い要求、接触エンゲージメント、摩擦ハンドリング、洗練されたモータースキルといった複雑な要素を含むタスクがある。
これらのスキルをジェネラリストのポリシーを用いて実装することは、これらのポリシーがより正確な精度を高めるために、力やトルクの測定を含むさらなる感覚データを統合できるため、難しい。
本手法では,動的コンテキストスイッチングによる高精度タスクを特別に訓練した限られたスキル群に制御ポリシーを移行できるLLMに基づくグローバル制御ポリシーを提案する。
このフレームワークへのLLMの統合は、言語入力の解釈と処理だけでなく、多種多様な複雑なロボット操作のための制御機構の強化においても、その重要性を浮き彫りにしている。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - STEER: Flexible Robotic Manipulation via Dense Language Grounding [16.97343810491996]
STEERは、高精度でフレキシブルな低レベル制御で高レベルの常識推論をブリッジする、ロボット学習フレームワークである。
本手法は, 複雑な状況認識を, 厳密なアノテーションによる言語基盤ポリシーの訓練を通じて, 行動可能な低レベル行動に変換する。
論文 参考訳(メタデータ) (2024-11-05T18:48:12Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - InCoRo: In-Context Learning for Robotics Control with Feedback Loops [4.702566749969133]
InCoRoは、LLMコントローラ、シーン理解ユニット、ロボットからなる古典的なロボットフィードバックループを使用するシステムである。
システムの一般化能力を強調し,InCoRoが成功率において先行技術を上回ることを示す。
この研究は、動的環境に適応する信頼性があり、効率的でインテリジェントな自律システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2024-02-07T19:01:11Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Deep Reinforcement Learning for Contact-Rich Skills Using Compliant
Movement Primitives [0.0]
産業用ロボットのさらなる統合は、柔軟性、適応性、意思決定スキルの制限によって妨げられている。
収束と一般化を容易にする異なるプルーニング手法を提案する。
提案手法は,空間,サイズ,形状,および密接に関連するシナリオに不変な挿入スキルを学習できることを実証する。
論文 参考訳(メタデータ) (2020-08-30T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。