論文の概要: CLIPUNetr: Assisting Human-robot Interface for Uncalibrated Visual
Servoing Control with CLIP-driven Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2309.09183v1
- Date: Sun, 17 Sep 2023 07:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:03:31.277972
- Title: CLIPUNetr: Assisting Human-robot Interface for Uncalibrated Visual
Servoing Control with CLIP-driven Referring Expression Segmentation
- Title(参考訳): CLIPUNetr:CLIP-driven Referring Expression Segmentationによる視覚サーボ制御のためのヒューマンロボットインタフェース
- Authors: Chen Jiang, Yuchen Yang, Martin Jagersand
- Abstract要約: 本稿では,ロボットの知覚に深い情報を提供するために,参照表現セグメンテーションを提案する。
参照表現から高品質なセグメンテーション予測を生成するために,新しいCLIP駆動参照表現セグメンテーションネットワークであるCLIPUNetrを提案する。
実験では, 境界と構造の測定を平均120%改善し, 実世界のUIBVS制御の非構造操作環境における支援に成功している。
- 参考スコア(独自算出の注目度): 5.3345258159558995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classical human-robot interface in uncalibrated image-based visual
servoing (UIBVS) relies on either human annotations or semantic segmentation
with categorical labels. Both methods fail to match natural human communication
and convey rich semantics in manipulation tasks as effectively as natural
language expressions. In this paper, we tackle this problem by using referring
expression segmentation, which is a prompt-based approach, to provide more
in-depth information for robot perception. To generate high-quality
segmentation predictions from referring expressions, we propose CLIPUNetr - a
new CLIP-driven referring expression segmentation network. CLIPUNetr leverages
CLIP's strong vision-language representations to segment regions from referring
expressions, while utilizing its ``U-shaped'' encoder-decoder architecture to
generate predictions with sharper boundaries and finer structures. Furthermore,
we propose a new pipeline to integrate CLIPUNetr into UIBVS and apply it to
control robots in real-world environments. In experiments, our method improves
boundary and structure measurements by an average of 120% and can successfully
assist real-world UIBVS control in an unstructured manipulation environment.
- Abstract(参考訳): uibvs(uncalibrated image-based visual servoing)の古典的なヒューマンロボットインタフェースは、人間のアノテーションまたはカテゴリーラベルによる意味セグメンテーションに依存している。
どちらの方法も自然言語コミュニケーションと一致せず、自然言語表現と同じくらい効果的に操作タスクにおいて豊富な意味を伝達する。
本稿では,ロボットの知覚に深い情報を提供するために,プロンプトベースアプローチである参照表現セグメンテーションを用いてこの問題に対処する。
参照表現から高品質なセグメンテーション予測を生成するために,新しいCLIP駆動参照表現セグメンテーションネットワークであるCLIPUNetrを提案する。
CLIPUNetrはCLIPの強力な視覚言語表現を参照表現からセグメント領域に利用し、‘U字型’エンコーダデコーダアーキテクチャを利用して、よりシャープな境界とより微細な構造を持つ予測を生成する。
さらに,CLIPUNetrをUIBVSに統合し,実環境におけるロボットの制御に適用するパイプラインを提案する。
実験では, 境界と構造の測定を平均120%改善し, 実世界のUIBVS制御の非構造操作環境における支援に成功している。
関連論文リスト
- Robot Manipulation in Salient Vision through Referring Image Segmentation and Geometric Constraints [1.256530849333063]
言語表現からの微細粒界と構造セグメンテーションのための軽量参照画像セグメンテーションモデルを提案する。
実世界におけるロボット制御を実現するために,視覚サーボシステムにモデルを配置する。
論文 参考訳(メタデータ) (2024-09-17T19:40:28Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。