論文の概要: SKU-Patch: Towards Efficient Instance Segmentation for Unseen Objects in
Auto-Store
- arxiv url: http://arxiv.org/abs/2311.04645v1
- Date: Wed, 8 Nov 2023 12:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:46:12.379061
- Title: SKU-Patch: Towards Efficient Instance Segmentation for Unseen Objects in
Auto-Store
- Title(参考訳): sku-patch: オートストアにおけるunseenオブジェクトの効率的なインスタンスセグメンテーションに向けて
- Authors: Biqi Yang, Weiliang Tang, Xiaojie Gao, Xianzhi Li, Yun-Hui Liu,
Chi-Wing Fu, Pheng-Ann Heng
- Abstract要約: 大規模な倉庫では、精密なケースマスクがロボットのビンピッキングに欠かせない。
本稿では,新たなSKUに対して,いくつかのイメージパッチのみを活用するパッチ誘導型インスタンスセグメンテーションソリューションを提案する。
SKU-Patchは、ロボット支援自動ストアロジスティックパイプラインにおいて、50以上の見えないSKUに対して、平均して100%近い成功率を得る。
- 参考スコア(独自算出の注目度): 102.45729472142526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large-scale storehouses, precise instance masks are crucial for robotic
bin picking but are challenging to obtain. Existing instance segmentation
methods typically rely on a tedious process of scene collection, mask
annotation, and network fine-tuning for every single Stock Keeping Unit (SKU).
This paper presents SKU-Patch, a new patch-guided instance segmentation
solution, leveraging only a few image patches for each incoming new SKU to
predict accurate and robust masks, without tedious manual effort and model
re-training. Technical-wise, we design a novel transformer-based network with
(i) a patch-image correlation encoder to capture multi-level image features
calibrated by patch information and (ii) a patch-aware transformer decoder with
parallel task heads to generate instance masks. Extensive experiments on four
storehouse benchmarks manifest that SKU-Patch is able to achieve the best
performance over the state-of-the-art methods. Also, SKU-Patch yields an
average of nearly 100% grasping success rate on more than 50 unseen SKUs in a
robot-aided auto-store logistic pipeline, showing its effectiveness and
practicality.
- Abstract(参考訳): 大規模倉庫では、精密なケースマスクはロボットのビンピックには不可欠だが、入手は困難である。
既存のインスタンスセグメンテーションメソッドは、通常、すべてのストックキーピングユニット(SKU)に対して、シーンコレクション、マスクアノテーション、ネットワークファインチューニングの面倒なプロセスに依存する。
本稿では,SKU-Patchについて述べる。SKU-Patchは,新しいSKUに対して,手作業の面倒さやモデル再構成を伴わずに,より正確で堅牢なマスクを予測するために,少数のイメージパッチのみを活用する,新しいパッチ誘導型インスタンスセグメンテーションソリューションである。
技術面では、新しいトランスを用いたネットワークを設計する。
(i)パッチ情報で校正された多レベル画像特徴をキャプチャするパッチ画像相関エンコーダ
(ii) 並列タスクヘッドを持つパッチ対応トランスフォーマーデコーダを使用してインスタンスマスクを生成する。
4つのストアハウスベンチマークの大規模な実験は、SKU-Patchが最先端の手法よりも最高のパフォーマンスを達成できることを示している。
また、SKU-Patchは、ロボット支援オートストアロジスティックパイプラインにおいて、50以上の未知のSKUで成功率を100%近く把握し、その有効性と実用性を示す。
関連論文リスト
- SAM Fewshot Finetuning for Anatomical Segmentation in Medical Images [3.2099042811875833]
医用画像の解剖学的セグメンテーションタスクにSAM(Seegment Anything)を適用するための戦略を提案する。
画像埋め込みで取得した解剖学的クエリーオブジェクトのプロンプトとして,ラベル付き画像の限られたセットから得られる少数ショット埋め込みを利用する。
本手法は,キャッシング機構を用いてマスクデコーダのみをトレーニングすることにより,微調整プロセスの効率化を優先する。
論文 参考訳(メタデータ) (2024-07-05T17:07:25Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Enhancing Few-shot Image Classification with Cosine Transformer [4.511561231517167]
Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。
本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。
我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-13T06:03:28Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - SOIT: Segmenting Objects with Instance-Aware Transformers [16.234574932216855]
本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。
提案手法では,インスタンスのセグメンテーションを直接セット予測問題とみなし,多数の手作り部品の必要性を効果的に除去する。
MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-21T08:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。