論文の概要: Robot Manipulation in Salient Vision through Referring Image Segmentation and Geometric Constraints
- arxiv url: http://arxiv.org/abs/2409.11518v1
- Date: Tue, 17 Sep 2024 19:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:59:44.521491
- Title: Robot Manipulation in Salient Vision through Referring Image Segmentation and Geometric Constraints
- Title(参考訳): 画像セグメンテーションと幾何学的制約の参照による視覚視覚のロボットマニピュレーション
- Authors: Chen Jiang, Allie Luo, Martin Jagersand,
- Abstract要約: 言語表現からの微細粒界と構造セグメンテーションのための軽量参照画像セグメンテーションモデルを提案する。
実世界におけるロボット制御を実現するために,視覚サーボシステムにモデルを配置する。
- 参考スコア(独自算出の注目度): 1.256530849333063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we perform robot manipulation activities in real-world environments with language contexts by integrating a compact referring image segmentation model into the robot's perception module. First, we propose CLIPU$^2$Net, a lightweight referring image segmentation model designed for fine-grain boundary and structure segmentation from language expressions. Then, we deploy the model in an eye-in-hand visual servoing system to enact robot control in the real world. The key to our system is the representation of salient visual information as geometric constraints, linking the robot's visual perception to actionable commands. Experimental results on 46 real-world robot manipulation tasks demonstrate that our method outperforms traditional visual servoing methods relying on labor-intensive feature annotations, excels in fine-grain referring image segmentation with a compact decoder size of 6.6 MB, and supports robot control across diverse contexts.
- Abstract(参考訳): 本稿では,ロボットの知覚モジュールにコンパクトな参照画像セグメンテーションモデルを統合することで,実環境におけるロボット操作を言語コンテキストで行う。
まず,CLIPU$^2$Netを提案する。これは,言語表現からの微細粒界と構造セグメンテーションのために設計された,軽量な参照画像セグメンテーションモデルである。
そして,実世界におけるロボット制御を実現するために,視覚サーボシステムにモデルを配置する。
このシステムの鍵となるのは、視覚情報を幾何学的制約として表現し、ロボットの視覚を動作可能なコマンドに結びつけることである。
実世界の46個のロボット操作タスクの実験結果から,作業集約型特徴アノテーションによる従来の視覚サーボ手法よりも優れ,コンパクトデコーダサイズ6.6MBの細粒参照画像セグメンテーションに優れ,多様なコンテキストでロボット制御をサポートすることが示された。
関連論文リスト
- Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - CLIPUNetr: Assisting Human-robot Interface for Uncalibrated Visual
Servoing Control with CLIP-driven Referring Expression Segmentation [5.3345258159558995]
本稿では,ロボットの知覚に深い情報を提供するために,参照表現セグメンテーションを提案する。
参照表現から高品質なセグメンテーション予測を生成するために,新しいCLIP駆動参照表現セグメンテーションネットワークであるCLIPUNetrを提案する。
実験では, 境界と構造の測定を平均120%改善し, 実世界のUIBVS制御の非構造操作環境における支援に成功している。
論文 参考訳(メタデータ) (2023-09-17T07:14:12Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Graph Neural Networks for Relational Inductive Bias in Vision-based Deep
Reinforcement Learning of Robot Control [0.0]
この研究は、リレーショナル帰納バイアスと視覚フィードバックを組み合わせたニューラルネットワークアーキテクチャを導入し、効率的な位置制御ポリシーを学習する。
我々は、画像符号化ネットワークによって生成された視覚シーンの低次元記述を用いて、ロボットの内部状態をモデル化するグラフ表現を導出する。
視覚的に現実的な3D環境下での6-DoFロボットアームのサンプル効率を向上させるためのモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-03-11T15:11:54Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - Caption Generation of Robot Behaviors based on Unsupervised Learning of
Action Segments [10.356412004005767]
ロボットの行動シーケンスとその自然言語キャプションをブリッジすることは、人間のアシストロボットの説明可能性を高める重要な課題である。
本稿では,人間支援ロボットの動作を記述した自然言語キャプションを生成するシステムを提案する。
論文 参考訳(メタデータ) (2020-03-23T03:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。