Fugu-MT 論文翻訳(概要): Mean Shift Mask Transformer for Unseen Object Instance Segmentation

論文の概要: Mean Shift Mask Transformer for Unseen Object Instance Segmentation

arxiv url: http://arxiv.org/abs/2211.11679v3
Date: Thu, 21 Sep 2023 23:04:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 19:35:55.000807
Title: Mean Shift Mask Transformer for Unseen Object Instance Segmentation
Title（参考訳）: 未知のオブジェクトインスタンスセグメンテーションのための平均シフトマスク変換器
Authors: Yangxiao Lu, Yuqiao Chen, Nicholas Ruozzi, Yu Xiang
Abstract要約: Mean Shift Mask Transformer (MSMFormer)は、von Mises-Fisher(vMF)平均シフトクラスタリングアルゴリズムをシミュレートするトランスフォーマーアーキテクチャである。実験の結果,MSMFormerは未確認オブジェクトのインスタンスセグメンテーションの最先端手法と比較して,競争性能が向上していることがわかった。
参考スコア（独自算出の注目度）: 12.371855276852195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Segmenting unseen objects from images is a critical perception skill that a robot needs to acquire. In robot manipulation, it can facilitate a robot to grasp and manipulate unseen objects. Mean shift clustering is a widely used method for image segmentation tasks. However, the traditional mean shift clustering algorithm is not differentiable, making it difficult to integrate it into an end-to-end neural network training framework. In this work, we propose the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing for the joint training and inference of both the feature extractor and the clustering. Its central component is a hypersphere attention mechanism, which updates object queries on a hypersphere. To illustrate the effectiveness of our method, we apply MSMFormer to unseen object instance segmentation. Our experiments show that MSMFormer achieves competitive performance compared to state-of-the-art methods for unseen object instance segmentation. The project page, appendix, video, and code are available at https://irvlutd.github.io/MSMFormer
Abstract（参考訳）: 画像から見えない物体をセグメンテーションすることは、ロボットが獲得する必要がある重要な知覚スキルである。ロボット操作では、ロボットが見えない物体をつかんで操作するのに役立つ。平均シフトクラスタリングは画像セグメンテーションタスクに広く用いられている手法である。しかし、従来の平均シフトクラスタリングアルゴリズムは区別できないため、エンドツーエンドのニューラルネットワークトレーニングフレームワークに統合することは困難である。本研究では,von mises-fisher (vmf)平均シフトクラスタリングアルゴリズムをシミュレートし,特徴抽出器とクラスタリングの合同トレーニングと推論を可能にする,新しいトランスフォーマティブアーキテクチャであるmean shift mask transformer (msmformer)を提案する。その中心的なコンポーネントは、ハイパースフィア上のオブジェクトクエリを更新するハイパースフィアのアテンションメカニズムである。提案手法の有効性を説明するために,MSMFormerを未確認のオブジェクトインスタンスセグメンテーションに適用する。実験の結果,MSMFormerは未確認オブジェクトのインスタンスセグメンテーションの最先端手法と比較して,競争性能が向上していることがわかった。プロジェクトページ、付録、ビデオ、およびコードはhttps://irvlutd.github.io/MSMFormer.comで入手できる。

関連論文リスト

LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。その結果,本手法が最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2024-08-06T14:50:48Z)
Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors [30.579707929061026]
本研究は,ゼロショット設定における精密操作のための微細部分記述子の接地について検討する。我々は、それを密接な意味部分対応タスクとしてフレーミングすることで、この問題に対処する。我々のモデルは、同じオブジェクトの視覚的に異なるインスタンスのソースイメージからユーザ定義クリックを参照して、特定の部分を操作するためのグリップパポーズを返します。
論文参考訳（メタデータ） (2024-03-21T16:26:19Z)
HGFormer: Hierarchical Grouping Transformer for Domain Generalized Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。本稿では,階層型グループ化変換器(HGFormer)を提案する。実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文参考訳（メタデータ） (2023-05-22T13:33:41Z)
Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文参考訳（メタデータ） (2023-05-10T16:51:36Z)
SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation [22.930296667684125]
本稿では,セマンティック・アウェア・インスタンス・マスク(SIM)生成パラダイムを開発することによって,新しいボックス管理型インスタンス・セグメンテーション手法を提案する。セマンティック・アウェア・プロトタイプは,同じセマンティクスの異なるインスタンスを区別できないことを考慮し,自己補正機構を提案する。実験結果から,提案手法が他の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-14T05:59:25Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
SOIT: Segmenting Objects with Instance-Aware Transformers [16.234574932216855]
本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。提案手法では,インスタンスのセグメンテーションを直接セット予測問題とみなし,多数の手作り部品の必要性を効果的に除去する。 MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2021-12-21T08:23:22Z)
RICE: Refining Instance Masks in Cluttered Environments with Graph Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文参考訳（メタデータ） (2021-06-29T20:29:29Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
Fast Object Segmentation Learning with Kernel-based Methods for Robotics [21.48920421574167]
オブジェクトセグメンテーションは、把握やオブジェクト操作といったタスクを実行するロボットの視覚システムにおいて重要なコンポーネントである。本稿では,オブジェクトセグメンテーションのための新しいアーキテクチャを提案する。これはこの問題を克服し,最先端の手法で必要とされる時間に匹敵する性能を提供する。本手法はコンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証されている。
論文参考訳（メタデータ） (2020-11-25T15:07:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。