論文の概要: Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images
- arxiv url: http://arxiv.org/abs/2303.11530v2
- Date: Mon, 27 Nov 2023 23:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 04:02:15.904560
- Title: Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images
- Title(参考訳): 実画像からの移動可能部分のアクティブ粗粒分割
- Authors: Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang
- Abstract要約: 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンス分割を行うための,最初のアクティブラーニングフレームワークを提案する。
提案手法は,実画像上でのセマンティックラベルを用いた完全精度(96%以上)のセグメンテーション結果を実現する。
最終的に、2,550枚の実際の写真に注釈付き可動部品を付けたデータセットを寄贈し、現在のベストな代替品よりも優れた品質と多様性を実証した。
- 参考スコア(独自算出の注目度): 14.132573068344804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first active learning (AL) framework for high-accuracy
instance segmentation of moveable parts from RGB images of real indoor scenes.
As with most human-in-the-loop approaches, the key criterion for success in AL
is to minimize human effort while still attaining high performance. To this
end, we employ a transformer that utilizes a masked-attention mechanism to
supervise the active segmentation. To enhance the network tailored to moveable
parts, we introduce a coarse-to-fine AL approach which first uses an
object-aware masked attention and then a pose-aware one, leveraging the
hierarchical nature of the problem and a correlation between moveable parts and
object poses and interaction directions. Our method achieves close to fully
accurate (96% and higher) segmentation results, with semantic labels, on real
images, with 82% time saving over manual effort, where the training data
consists of only 11.45% annotated real photographs. At last, we contribute a
dataset of 2,550 real photographs with annotated moveable parts, demonstrating
its superior quality and diversity over the current best alternatives.
- Abstract(参考訳): 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンスセグメンテーションを実現するための,最初のアクティブラーニング(AL)フレームワークを提案する。
ALの成功の鍵となる基準は、ハイパフォーマンスを保ちながら人間の努力を最小限に抑えることである。
この目的のために,マスキング・アテンション機構を用いた変圧器を用いて,アクティブセグメンテーションの監視を行う。
移動可能な部品に合わせたネットワークを強化するため,まずオブジェクト認識型マスマスキングとポーズ認識型アプローチを導入し,その階層的性質と移動可能な部品とオブジェクトのポーズと相互作用方向の相関性を利用した。
本手法は,実画像上で意味ラベルを用いた完全な精度 (96%以上) のセグメンテーション結果が得られ,手作業で82%の時間を節約できる。
最終的に、2,550枚の実際の写真に注釈付き可動部品を付加し、現在のベストな代替品よりも優れた品質と多様性を示す。
関連論文リスト
- RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant
Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。
オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-04T05:03:24Z) - PARTICLE: Part Discovery and Contrastive Learning for Fine-grained
Recognition [29.05343410791649]
本研究では,細粒度分類タスクやセグメント化タスクを自己監督的に表現する手法を開発した。
部分中心の学習ステップが画像内の部分の表現を集約し、コントラストすることを示す。
これにより、データセット間の画像分類と部分分割タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-09-25T02:08:48Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - InfoSeg: Unsupervised Semantic Image Segmentation with Mutual
Information Maximization [0.0]
局所的特徴と大域的高レベル特徴の相互情報に基づく教師なし画像表現の新しい手法を提案する。
最初のステップでは、ローカル機能とグローバル機能に基づいて、イメージをセグメント化する。
第2のステップでは,各クラスの局所的特徴と高次特徴との相互関係を最大化する。
論文 参考訳(メタデータ) (2021-10-07T14:01:42Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Attention-Guided Supervised Contrastive Learning for Semantic
Segmentation [16.729068267453897]
画素ごとの予測タスクでは、セグメンテーションのために1つのイメージに複数のラベルが存在する可能性がある。
本研究では,1つの意味的対象を目標として毎回強調する,注意誘導型教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:01:11Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Importance of Self-Consistency in Active Learning for Semantic
Segmentation [31.392212891018655]
我々は,少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を向上させるために,自己整合性は自己超越の強力な情報源となることを示す。
提案するアクティブラーニングフレームワークでは,ラベル付けが必要な小さな画像パッチを反復的に抽出する。
現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。
論文 参考訳(メタデータ) (2020-08-04T22:18:35Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。