論文の概要: Show and Grasp: Few-shot Semantic Segmentation for Robot Grasping through Zero-shot Foundation Models
- arxiv url: http://arxiv.org/abs/2404.12717v1
- Date: Fri, 19 Apr 2024 08:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:45:58.762672
- Title: Show and Grasp: Few-shot Semantic Segmentation for Robot Grasping through Zero-shot Foundation Models
- Title(参考訳): Show and Grasp:ゼロショット基礎モデルによるロボットグラフプのためのいくつかのショットセマンティックセマンティックセマンティックセグメンテーション
- Authors: Leonardo Barcellona, Alberto Bacchin, Matteo Terreran, Emanuele Menegatti, Stefano Ghidoni,
- Abstract要約: ロボットが物体をつかむ能力は、いくつかの応用に欠かせない。
このようなタスクでは、選択する適切なターゲットを選択することは、グリップの正しい構成を推測するのと同じくらい重要である。
この問題に対する一般的な解決策はセマンティックセグメンテーションモデルに依存しており、しばしば目に見えない対象への一般化が不十分である。
- 参考スコア(独自算出の注目度): 5.792788640304759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of a robot to pick an object, known as robot grasping, is crucial for several applications, such as assembly or sorting. In such tasks, selecting the right target to pick is as essential as inferring a correct configuration of the gripper. A common solution to this problem relies on semantic segmentation models, which often show poor generalization to unseen objects and require considerable time and massive data to be trained. To reduce the need for large datasets, some grasping pipelines exploit few-shot semantic segmentation models, which are capable of recognizing new classes given a few examples. However, this often comes at the cost of limited performance and fine-tuning is required to be effective in robot grasping scenarios. In this work, we propose to overcome all these limitations by combining the impressive generalization capability reached by foundation models with a high-performing few-shot classifier, working as a score function to select the segmentation that is closer to the support set. The proposed model is designed to be embedded in a grasp synthesis pipeline. The extensive experiments using one or five examples show that our novel approach overcomes existing performance limitations, improving the state of the art both in few-shot semantic segmentation on the Graspnet-1B (+10.5% mIoU) and Ocid-grasp (+1.6% AP) datasets, and real-world few-shot grasp synthesis (+21.7% grasp accuracy). The project page is available at: https://leobarcellona.github.io/showandgrasp.github.io/
- Abstract(参考訳): ロボットが物体をつかむ能力は、組み立てやソートなど、いくつかの用途に欠かせない。
このようなタスクでは、選択する適切なターゲットを選択することは、グリップの正しい構成を推測するのと同じくらい重要である。
この問題に対する一般的な解決策はセマンティックセグメンテーションモデル(セマンティックセグメンテーションモデル)に依存している。
大規模なデータセットの必要性を減らすため、いくつかの把握パイプラインでは、いくつかの例から新しいクラスを認識することができる、数ショットのセマンティックセグメンテーションモデルを利用している。
しかし、これは性能の制限によるコストが伴うことが多く、ロボットの把握シナリオに効果的に調整する必要がある。
本研究では,基礎モデルが到達した印象的な一般化能力と高パフォーマンスな少数ショット分類器を組み合わせることで,これらの制限をすべて克服し,サポートセットに近いセグメンテーションを選択するためのスコア関数として機能することを提案する。
提案モデルは、グリップ合成パイプラインに組み込むように設計されている。
1つまたは5つの例を用いた大規模な実験は、我々の新しいアプローチが既存のパフォーマンス制限を克服し、Graspnet-1B(+10.5% mIoU)とOcid-grasp(+1.6% AP)データセットの少数ショットセマンティックセグメンテーション(+21.7%の精度)の両方で最先端のセマンティックセグメンテーションを改善したことを示している。
プロジェクトページは、https://leobarcellona.github.io/showandgrasp.github.io/で公開されている。
関連論文リスト
- OMG-Seg: Is One Model Good Enough For All Segmentation? [86.29839352757922]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Learn Fast, Segment Well: Fast Object Segmentation Learning on the iCub
Robot [20.813028212068424]
我々は、新しいオブジェクトや異なるドメインの存在下で、オブジェクトセグメンテーションモデルに適応できる様々な技術について研究する。
データをストリーム化するロボットアプリケーションのための高速なインスタンスセグメンテーション学習のためのパイプラインを提案する。
提案したパイプラインを2つのデータセットでベンチマークし、実際のロボットであるiCubヒューマノイドにデプロイする。
論文 参考訳(メタデータ) (2022-06-27T17:14:04Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。