論文の概要: Mean Shift Mask Transformer for Unseen Object Instance Segmentation
- arxiv url: http://arxiv.org/abs/2211.11679v1
- Date: Mon, 21 Nov 2022 17:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:35:52.458199
- Title: Mean Shift Mask Transformer for Unseen Object Instance Segmentation
- Title(参考訳): 未知のオブジェクトインスタンスセグメンテーションのための平均シフトマスク変換器
- Authors: Yangxiao Lu, Yuqiao Chen, Nicholas Ruozzi, Yu Xiang
- Abstract要約: Mean Shift Mask Transformer (MSMFormer)は、von Mises-Fisher(vMF)平均シフトクラスタリングアルゴリズムをシミュレートするトランスフォーマーアーキテクチャである。
MSMFormerは、特徴抽出器とクラスタリングの両方のジョイントトレーニングと推論を可能にする。
- 参考スコア(独自算出の注目度): 25.59080233033535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting unseen objects is a critical task in many different domains. For
example, a robot may need to grasp an unseen object, which means it needs to
visually separate this object from the background and/or other objects. Mean
shift clustering is a common method in object segmentation tasks. However, the
traditional mean shift clustering algorithm is not easily integrated into an
end-to-end neural network training pipeline. In this work, we propose the Mean
Shift Mask Transformer (MSMFormer), a new transformer architecture that
simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing
for the joint training and inference of both the feature extractor and the
clustering. Its central component is a hypersphere attention mechanism, which
updates object queries on a hypersphere. To illustrate the effectiveness of our
method, we apply MSMFormer to Unseen Object Instance Segmentation, which yields
a new state-of-the-art of 87.3 Boundary F-meansure on the real-world Object
Clutter Indoor Dataset (OCID). Code is available at
https://github.com/YoungSean/UnseenObjectsWithMeanShift
- Abstract(参考訳): 見えないオブジェクトのセグメンテーションは多くの異なるドメインにおいて重要なタスクである。
例えば、ロボットは見えないオブジェクトをつかむ必要があるかもしれない。つまり、このオブジェクトを背景や他のオブジェクトから視覚的に分離する必要がある。
平均シフトクラスタリングは、オブジェクトセグメンテーションタスクにおいて一般的な方法である。
しかし、従来の平均シフトクラスタリングアルゴリズムは、エンドツーエンドのニューラルネットワークトレーニングパイプラインに簡単には統合されない。
本研究では,von mises-fisher (vmf)平均シフトクラスタリングアルゴリズムをシミュレートし,特徴抽出器とクラスタリングの合同トレーニングと推論を可能にする,新しいトランスフォーマティブアーキテクチャであるmean shift mask transformer (msmformer)を提案する。
その中心的なコンポーネントは、ハイパースフィア上のオブジェクトクエリを更新するハイパースフィアのアテンションメカニズムである。
本手法の有効性を説明するために,MSMFormer を Unseen Object Instance Segmentation に適用し,実世界のオブジェクトClutter Indoor Dataset (OCID) に 87.3 境界 F-meansure を新たに生成する。
コードはhttps://github.com/YoungSean/UnseenObjectsWithMeanShiftで入手できる。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors [30.579707929061026]
本研究は,ゼロショット設定における精密操作のための微細部分記述子の接地について検討する。
我々は、それを密接な意味部分対応タスクとしてフレーミングすることで、この問題に対処する。
我々のモデルは、同じオブジェクトの視覚的に異なるインスタンスのソースイメージからユーザ定義クリックを参照して、特定の部分を操作するためのグリップパポーズを返します。
論文 参考訳(メタデータ) (2024-03-21T16:26:19Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance
Segmentation [22.930296667684125]
本稿では,セマンティック・アウェア・インスタンス・マスク(SIM)生成パラダイムを開発することによって,新しいボックス管理型インスタンス・セグメンテーション手法を提案する。
セマンティック・アウェア・プロトタイプは,同じセマンティクスの異なるインスタンスを区別できないことを考慮し,自己補正機構を提案する。
実験結果から,提案手法が他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-14T05:59:25Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - SOIT: Segmenting Objects with Instance-Aware Transformers [16.234574932216855]
本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。
提案手法では,インスタンスのセグメンテーションを直接セット予測問題とみなし,多数の手作り部品の必要性を効果的に除去する。
MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-21T08:23:22Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Fast Object Segmentation Learning with Kernel-based Methods for Robotics [21.48920421574167]
オブジェクトセグメンテーションは、把握やオブジェクト操作といったタスクを実行するロボットの視覚システムにおいて重要なコンポーネントである。
本稿では,オブジェクトセグメンテーションのための新しいアーキテクチャを提案する。これはこの問題を克服し,最先端の手法で必要とされる時間に匹敵する性能を提供する。
本手法はコンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証されている。
論文 参考訳(メタデータ) (2020-11-25T15:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。