論文の概要: Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images
- arxiv url: http://arxiv.org/abs/2303.11530v3
- Date: Sun, 7 Jul 2024 18:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 05:42:28.618066
- Title: Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images
- Title(参考訳): 実画像からの移動部品の能動粗大化
- Authors: Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang,
- Abstract要約: 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンスセグメンテーションのための,最初のアクティブラーニング(AL)モデルを提案する。
能動セグメンテーションを監督するためにマスク付きアテンション機構を利用するトランスフォーマーを用いる。
画像の11.45%を手動でアノテートするだけで、セマンティックラベルによる完全に検証可能な部分分割が得られる。
- 参考スコア(独自算出の注目度): 12.936844343163127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first active learning (AL) model for high-accuracy instance segmentation of moveable parts from RGB images of real indoor scenes. Specifically, our goal is to obtain fully validated segmentation results by humans while minimizing manual effort. To this end, we employ a transformer that utilizes a masked-attention mechanism to supervise the active segmentation. To enhance the network tailored to moveable parts, we introduce a coarse-to-fine AL approach which first uses an object-aware masked attention and then a pose-aware one, leveraging the hierarchical nature of the problem and a correlation between moveable parts and object poses and interaction directions. When applying our AL model to 2,000 real images, we obtain fully validated moveable part segmentations with semantic labels, by only needing to manually annotate 11.45% of the images. This translates to significant (60%) time saving over manual effort required by the best non-AL model to attain the same segmentation accuracy. At last, we contribute a dataset of 2,550 real images with annotated moveable parts, demonstrating its superior quality and diversity over the best alternatives.
- Abstract(参考訳): 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンスセグメンテーションのための,最初のアクティブラーニング(AL)モデルを提案する。
具体的には、手作業の最小化を図りながら、人間による完全検証されたセグメンテーション結果を得ることが目的である。
この目的のために、能動セグメンテーションを監督するためにマスク付きアテンション機構を利用するトランスフォーマーを用いる。
移動可能な部品に合わせたネットワークを強化するために,まずオブジェクト認識型マスキングとポーズ認識型アプローチを導入し,問題の階層的性質と移動可能な部品とオブジェクトのポーズとインタラクションの方向の相関性を活用する。
実画像2000枚にALモデルを適用した場合,画像の11.45%を手動でアノテートするだけで,セマンティックラベルによる完全に検証可能な部分分割が得られる。
これは、最も優れた非ALモデルが同じセグメンテーション精度を達成するのに必要な手作業よりも大幅に(60%)の時間を節約することを意味する。
最終的に、2,550個の実画像に注釈付き可動部品を付与し、最適な代替品よりも優れた品質と多様性を示す。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant
Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。
オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-04T05:03:24Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Importance of Self-Consistency in Active Learning for Semantic
Segmentation [31.392212891018655]
我々は,少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を向上させるために,自己整合性は自己超越の強力な情報源となることを示す。
提案するアクティブラーニングフレームワークでは,ラベル付けが必要な小さな画像パッチを反復的に抽出する。
現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。
論文 参考訳(メタデータ) (2020-08-04T22:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。