論文の概要: Mean Shift Mask Transformer for Unseen Object Instance Segmentation
- arxiv url: http://arxiv.org/abs/2211.11679v3
- Date: Thu, 21 Sep 2023 23:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 19:35:55.000807
- Title: Mean Shift Mask Transformer for Unseen Object Instance Segmentation
- Title(参考訳): 未知のオブジェクトインスタンスセグメンテーションのための平均シフトマスク変換器
- Authors: Yangxiao Lu, Yuqiao Chen, Nicholas Ruozzi, Yu Xiang
- Abstract要約: Mean Shift Mask Transformer (MSMFormer)は、von Mises-Fisher(vMF)平均シフトクラスタリングアルゴリズムをシミュレートするトランスフォーマーアーキテクチャである。
実験の結果,MSMFormerは未確認オブジェクトのインスタンスセグメンテーションの最先端手法と比較して,競争性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 12.371855276852195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting unseen objects from images is a critical perception skill that a
robot needs to acquire. In robot manipulation, it can facilitate a robot to
grasp and manipulate unseen objects. Mean shift clustering is a widely used
method for image segmentation tasks. However, the traditional mean shift
clustering algorithm is not differentiable, making it difficult to integrate it
into an end-to-end neural network training framework. In this work, we propose
the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture
that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm,
allowing for the joint training and inference of both the feature extractor and
the clustering. Its central component is a hypersphere attention mechanism,
which updates object queries on a hypersphere. To illustrate the effectiveness
of our method, we apply MSMFormer to unseen object instance segmentation. Our
experiments show that MSMFormer achieves competitive performance compared to
state-of-the-art methods for unseen object instance segmentation. The project
page, appendix, video, and code are available at
https://irvlutd.github.io/MSMFormer
- Abstract(参考訳): 画像から見えない物体をセグメンテーションすることは、ロボットが獲得する必要がある重要な知覚スキルである。
ロボット操作では、ロボットが見えない物体をつかんで操作するのに役立つ。
平均シフトクラスタリングは画像セグメンテーションタスクに広く用いられている手法である。
しかし、従来の平均シフトクラスタリングアルゴリズムは区別できないため、エンドツーエンドのニューラルネットワークトレーニングフレームワークに統合することは困難である。
本研究では,von mises-fisher (vmf)平均シフトクラスタリングアルゴリズムをシミュレートし,特徴抽出器とクラスタリングの合同トレーニングと推論を可能にする,新しいトランスフォーマティブアーキテクチャであるmean shift mask transformer (msmformer)を提案する。
その中心的なコンポーネントは、ハイパースフィア上のオブジェクトクエリを更新するハイパースフィアのアテンションメカニズムである。
提案手法の有効性を説明するために,MSMFormerを未確認のオブジェクトインスタンスセグメンテーションに適用する。
実験の結果,MSMFormerは未確認オブジェクトのインスタンスセグメンテーションの最先端手法と比較して,競争性能が向上していることがわかった。
プロジェクトページ、付録、ビデオ、およびコードはhttps://irvlutd.github.io/MSMFormer.comで入手できる。
関連論文リスト
- Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors [30.579707929061026]
本研究は,ゼロショット設定における精密操作のための微細部分記述子の接地について検討する。
我々は、それを密接な意味部分対応タスクとしてフレーミングすることで、この問題に対処する。
我々のモデルは、同じオブジェクトの視覚的に異なるインスタンスのソースイメージからユーザ定義クリックを参照して、特定の部分を操作するためのグリップパポーズを返します。
論文 参考訳(メタデータ) (2024-03-21T16:26:19Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance
Segmentation [22.930296667684125]
本稿では,セマンティック・アウェア・インスタンス・マスク(SIM)生成パラダイムを開発することによって,新しいボックス管理型インスタンス・セグメンテーション手法を提案する。
セマンティック・アウェア・プロトタイプは,同じセマンティクスの異なるインスタンスを区別できないことを考慮し,自己補正機構を提案する。
実験結果から,提案手法が他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-14T05:59:25Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - SOIT: Segmenting Objects with Instance-Aware Transformers [16.234574932216855]
本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。
提案手法では,インスタンスのセグメンテーションを直接セット予測問題とみなし,多数の手作り部品の必要性を効果的に除去する。
MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-21T08:23:22Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Fast Object Segmentation Learning with Kernel-based Methods for Robotics [21.48920421574167]
オブジェクトセグメンテーションは、把握やオブジェクト操作といったタスクを実行するロボットの視覚システムにおいて重要なコンポーネントである。
本稿では,オブジェクトセグメンテーションのための新しいアーキテクチャを提案する。これはこの問題を克服し,最先端の手法で必要とされる時間に匹敵する性能を提供する。
本手法はコンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証されている。
論文 参考訳(メタデータ) (2020-11-25T15:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。