論文の概要: Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images
- arxiv url: http://arxiv.org/abs/2303.11530v2
- Date: Mon, 27 Nov 2023 23:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 04:02:15.904560
- Title: Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images
- Title(参考訳): 実画像からの移動可能部分のアクティブ粗粒分割
- Authors: Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang
- Abstract要約: 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンス分割を行うための,最初のアクティブラーニングフレームワークを提案する。
提案手法は,実画像上でのセマンティックラベルを用いた完全精度(96%以上)のセグメンテーション結果を実現する。
最終的に、2,550枚の実際の写真に注釈付き可動部品を付けたデータセットを寄贈し、現在のベストな代替品よりも優れた品質と多様性を実証した。
- 参考スコア(独自算出の注目度): 14.132573068344804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first active learning (AL) framework for high-accuracy
instance segmentation of moveable parts from RGB images of real indoor scenes.
As with most human-in-the-loop approaches, the key criterion for success in AL
is to minimize human effort while still attaining high performance. To this
end, we employ a transformer that utilizes a masked-attention mechanism to
supervise the active segmentation. To enhance the network tailored to moveable
parts, we introduce a coarse-to-fine AL approach which first uses an
object-aware masked attention and then a pose-aware one, leveraging the
hierarchical nature of the problem and a correlation between moveable parts and
object poses and interaction directions. Our method achieves close to fully
accurate (96% and higher) segmentation results, with semantic labels, on real
images, with 82% time saving over manual effort, where the training data
consists of only 11.45% annotated real photographs. At last, we contribute a
dataset of 2,550 real photographs with annotated moveable parts, demonstrating
its superior quality and diversity over the current best alternatives.
- Abstract(参考訳): 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンスセグメンテーションを実現するための,最初のアクティブラーニング(AL)フレームワークを提案する。
ALの成功の鍵となる基準は、ハイパフォーマンスを保ちながら人間の努力を最小限に抑えることである。
この目的のために,マスキング・アテンション機構を用いた変圧器を用いて,アクティブセグメンテーションの監視を行う。
移動可能な部品に合わせたネットワークを強化するため,まずオブジェクト認識型マスマスキングとポーズ認識型アプローチを導入し,その階層的性質と移動可能な部品とオブジェクトのポーズと相互作用方向の相関性を利用した。
本手法は,実画像上で意味ラベルを用いた完全な精度 (96%以上) のセグメンテーション結果が得られ,手作業で82%の時間を節約できる。
最終的に、2,550枚の実際の写真に注釈付き可動部品を付加し、現在のベストな代替品よりも優れた品質と多様性を示す。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant
Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。
オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-04T05:03:24Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文 参考訳(メタデータ) (2023-09-18T05:28:51Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Importance of Self-Consistency in Active Learning for Semantic
Segmentation [31.392212891018655]
我々は,少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を向上させるために,自己整合性は自己超越の強力な情報源となることを示す。
提案するアクティブラーニングフレームワークでは,ラベル付けが必要な小さな画像パッチを反復的に抽出する。
現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。
論文 参考訳(メタデータ) (2020-08-04T22:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。