論文の概要: Robot Instance Segmentation with Few Annotations for Grasping
- arxiv url: http://arxiv.org/abs/2407.01302v1
- Date: Mon, 1 Jul 2024 13:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:20:18.367024
- Title: Robot Instance Segmentation with Few Annotations for Grasping
- Title(参考訳): グラッピング用アノテーションの少ないロボットインスタンスセグメンテーション
- Authors: Moshe Kimhi, David Vainshtein, Chaim Baskin, Dotan Di Castro,
- Abstract要約: セミスーパーバイザードラーニング(SSL)とラーニング・スルー・インタラクション(LTI)を組み合わせた新しいフレームワークを提案する。
提案手法は,自己スーパービジョンによる注釈付きデータを利用して,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的コンテキストを組み込む。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 10.005879464111915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability of robots to manipulate objects relies heavily on their aptitude for visual perception. In domains characterized by cluttered scenes and high object variability, most methods call for vast labeled datasets, laboriously hand-annotated, with the aim of training capable models. Once deployed, the challenge of generalizing to unfamiliar objects implies that the model must evolve alongside its domain. To address this, we propose a novel framework that combines Semi-Supervised Learning (SSL) with Learning Through Interaction (LTI), allowing a model to learn by observing scene alterations and leverage visual consistency despite temporal gaps without requiring curated data of interaction sequences. As a result, our approach exploits partially annotated data through self-supervision and incorporates temporal context using pseudo-sequences generated from unlabeled still images. We validate our method on two common benchmarks, ARMBench mix-object-tote and OCID, where it achieves state-of-the-art performance. Notably, on ARMBench, we attain an $\text{AP}_{50}$ of $86.37$, almost a $20\%$ improvement over existing work, and obtain remarkable results in scenarios with extremely low annotation, achieving an $\text{AP}_{50}$ score of $84.89$ with just $1 \%$ of annotated data compared to $72$ presented in ARMBench on the fully annotated counterpart.
- Abstract(参考訳): 物体を操作するロボットの能力は、視覚知覚の適性に大きく依存している。
散らかったシーンと高いオブジェクトの変動を特徴とするドメインでは、ほとんどのメソッドは巨大なラベル付きデータセットを呼び、手書きで、有能なモデルを訓練することを目的としている。
一度デプロイされると、不慣れなオブジェクトへの一般化という課題は、モデルがそのドメインと一緒に進化しなければならないことを意味します。
そこで本研究では,シーンの変化を観察して学習し,インタラクションシーケンスのキュレートされたデータを必要とすることなく,時間的ギャップに拘わらず視覚的整合性を活用することのできる,半教師付き学習(SSL)とLearning Through Interaction(LTI)を組み合わせた新しいフレームワークを提案する。
その結果,本手法は自己監督による部分的注釈付きデータを活用し,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的文脈を取り入れた。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
特に、ARMBenchでは、$\text{AP}_{50}$が$86.37$、既存の作業よりも約20.%$改善され、非常に低いアノテーションを持つシナリオで素晴らしい結果を得ることができ、$\text{AP}_{50}$スコアが$84.89$、注釈付きデータが$1 \%$であるのに対して、ARMBenchでは$72$である。
関連論文リスト
- One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - S$^3$Track: Self-supervised Tracking with Soft Assignment Flow [45.77333923477176]
ビデオレベルのアソシエーションラベルを使わずに、自己監督型複数物体追跡について検討する。
オブジェクトアソシエーションのための微分可能なソフトオブジェクト割り当てを提案する。
提案手法は,KITTI,nuScenes,Argoverseのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-05-17T06:25:40Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。