Fugu-MT 論文翻訳(概要): Coarse-to-Fine Active Segmentation of Interactable Parts in Real Scene Images

論文の概要: Coarse-to-Fine Active Segmentation of Interactable Parts in Real Scene Images

arxiv url: http://arxiv.org/abs/2303.11530v1
Date: Tue, 21 Mar 2023 01:30:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 16:57:54.669271
Title: Coarse-to-Fine Active Segmentation of Interactable Parts in Real Scene Images
Title（参考訳）: 実シーン画像における相互作用可能な部分の粗〜偽のアクティブセグメンテーション
Authors: Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang
Abstract要約: 屋内シーンのRGB画像から対話可能な動的部分の高精度なインスタンスセグメンテーションのための,最初のアクティブラーニングフレームワークを提案する。提案手法は実画像上での完全精度(96%以上)のセグメンテーション結果に近づき,手作業よりも77%の時間を節約できる。最終的に、2,550枚の実際の写真と注釈付き対話可能なパーツのデータセットをコントリビュートし、現在のベストな代替品よりも優れた品質と多様性を示す。
参考スコア（独自算出の注目度）: 16.254876741804374
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the first active learning (AL) framework for high-accuracy instance segmentation of dynamic, interactable parts from RGB images of real indoor scenes. As with most human-in-the-loop approaches, the key criterion for success in AL is to minimize human effort while still attaining high performance. To this end, we employ a transformer-based segmentation network that utilizes a masked-attention mechanism. To enhance the network, tailoring to our task, we introduce a coarse-to-fine model which first uses object-aware masked attention and then a pose-aware one, leveraging a correlation between interactable parts and object poses and leading to improved handling of multiple articulated objects in an image. Our coarse-to-fine active segmentation module learns both 2D instance and 3D pose information using the transformer, which supervises the active segmentation and effectively reduces human effort. Our method achieves close to fully accurate (96% and higher) segmentation results on real images, with 77% time saving over manual effort, where the training data consists of only 16.6% annotated real photographs. At last, we contribute a dataset of 2,550 real photographs with annotated interactable parts, demonstrating its superior quality and diversity over the current best alternative.
Abstract（参考訳）: 屋内シーンのRGB画像から対話可能な動的部分の高精度なインスタンスセグメンテーションを実現するための,最初のアクティブラーニング(AL)フレームワークを提案する。 ALの成功の鍵となる基準は、ハイパフォーマンスを保ちながら人間の努力を最小限に抑えることである。この目的のために、マスク付きアテンション機構を利用したトランスフォーマーベースのセグメンテーションネットワークを用いる。ネットワークの強化と課題の調整のために,まずは物体認識マスク付き注意を,次にポーズ認識モデルを導入し,対話可能な部分と物体ポーズとの相関を利用して,画像中の複数の調音された物体の処理を改善する。本モジュールは, 2d インスタンスと 3d ポーズ情報の両方をトランスフォーマを用いて学習し, アクティブセグメンテーションを監督し, 人的労力を効果的に削減する。本手法は,手作業に要する時間を77%削減し,実際の画像に対して全精度(96%以上)のセグメンテーション結果を得る。最終的に、2,550枚の実際の写真と注釈付き対話可能なパーツのデータセットをコントリビュートし、現在のベストな代替品よりも優れた品質と多様性を示す。

関連論文リスト

No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文参考訳（メタデータ） (2025-07-03T16:59:01Z)
UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。 6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-10-13T16:34:46Z)
Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文参考訳（メタデータ） (2024-06-17T12:38:01Z)
RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文参考訳（メタデータ） (2024-03-04T05:03:24Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。 TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文参考訳（メタデータ） (2023-09-18T05:28:51Z)
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文参考訳（メタデータ） (2023-08-09T09:35:16Z)
Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文参考訳（メタデータ） (2022-10-01T16:31:44Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文参考訳（メタデータ） (2021-04-19T11:21:47Z)
Importance of Self-Consistency in Active Learning for Semantic Segmentation [31.392212891018655]
我々は,少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を向上させるために,自己整合性は自己超越の強力な情報源となることを示す。提案するアクティブラーニングフレームワークでは,ラベル付けが必要な小さな画像パッチを反復的に抽出する。現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。
論文参考訳（メタデータ） (2020-08-04T22:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。