論文の概要: Coarse-to-Fine Active Segmentation of Interactable Parts in Real Scene
Images
- arxiv url: http://arxiv.org/abs/2303.11530v1
- Date: Tue, 21 Mar 2023 01:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:57:54.669271
- Title: Coarse-to-Fine Active Segmentation of Interactable Parts in Real Scene
Images
- Title(参考訳): 実シーン画像における相互作用可能な部分の粗〜偽のアクティブセグメンテーション
- Authors: Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang
- Abstract要約: 屋内シーンのRGB画像から対話可能な動的部分の高精度なインスタンスセグメンテーションのための,最初のアクティブラーニングフレームワークを提案する。
提案手法は実画像上での完全精度(96%以上)のセグメンテーション結果に近づき,手作業よりも77%の時間を節約できる。
最終的に、2,550枚の実際の写真と注釈付き対話可能なパーツのデータセットをコントリビュートし、現在のベストな代替品よりも優れた品質と多様性を示す。
- 参考スコア(独自算出の注目度): 16.254876741804374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first active learning (AL) framework for high-accuracy
instance segmentation of dynamic, interactable parts from RGB images of real
indoor scenes. As with most human-in-the-loop approaches, the key criterion for
success in AL is to minimize human effort while still attaining high
performance. To this end, we employ a transformer-based segmentation network
that utilizes a masked-attention mechanism. To enhance the network, tailoring
to our task, we introduce a coarse-to-fine model which first uses object-aware
masked attention and then a pose-aware one, leveraging a correlation between
interactable parts and object poses and leading to improved handling of
multiple articulated objects in an image. Our coarse-to-fine active
segmentation module learns both 2D instance and 3D pose information using the
transformer, which supervises the active segmentation and effectively reduces
human effort. Our method achieves close to fully accurate (96% and higher)
segmentation results on real images, with 77% time saving over manual effort,
where the training data consists of only 16.6% annotated real photographs. At
last, we contribute a dataset of 2,550 real photographs with annotated
interactable parts, demonstrating its superior quality and diversity over the
current best alternative.
- Abstract(参考訳): 屋内シーンのRGB画像から対話可能な動的部分の高精度なインスタンスセグメンテーションを実現するための,最初のアクティブラーニング(AL)フレームワークを提案する。
ALの成功の鍵となる基準は、ハイパフォーマンスを保ちながら人間の努力を最小限に抑えることである。
この目的のために、マスク付きアテンション機構を利用したトランスフォーマーベースのセグメンテーションネットワークを用いる。
ネットワークの強化と課題の調整のために,まずは物体認識マスク付き注意を,次にポーズ認識モデルを導入し,対話可能な部分と物体ポーズとの相関を利用して,画像中の複数の調音された物体の処理を改善する。
本モジュールは, 2d インスタンスと 3d ポーズ情報の両方をトランスフォーマを用いて学習し, アクティブセグメンテーションを監督し, 人的労力を効果的に削減する。
本手法は,手作業に要する時間を77%削減し,実際の画像に対して全精度(96%以上)のセグメンテーション結果を得る。
最終的に、2,550枚の実際の写真と注釈付き対話可能なパーツのデータセットをコントリビュートし、現在のベストな代替品よりも優れた品質と多様性を示す。
関連論文リスト
- RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant
Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。
オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-04T05:03:24Z) - PARTICLE: Part Discovery and Contrastive Learning for Fine-grained
Recognition [29.05343410791649]
本研究では,細粒度分類タスクやセグメント化タスクを自己監督的に表現する手法を開発した。
部分中心の学習ステップが画像内の部分の表現を集約し、コントラストすることを示す。
これにより、データセット間の画像分類と部分分割タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-09-25T02:08:48Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - InfoSeg: Unsupervised Semantic Image Segmentation with Mutual
Information Maximization [0.0]
局所的特徴と大域的高レベル特徴の相互情報に基づく教師なし画像表現の新しい手法を提案する。
最初のステップでは、ローカル機能とグローバル機能に基づいて、イメージをセグメント化する。
第2のステップでは,各クラスの局所的特徴と高次特徴との相互関係を最大化する。
論文 参考訳(メタデータ) (2021-10-07T14:01:42Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Attention-Guided Supervised Contrastive Learning for Semantic
Segmentation [16.729068267453897]
画素ごとの予測タスクでは、セグメンテーションのために1つのイメージに複数のラベルが存在する可能性がある。
本研究では,1つの意味的対象を目標として毎回強調する,注意誘導型教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:01:11Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Importance of Self-Consistency in Active Learning for Semantic
Segmentation [31.392212891018655]
我々は,少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を向上させるために,自己整合性は自己超越の強力な情報源となることを示す。
提案するアクティブラーニングフレームワークでは,ラベル付けが必要な小さな画像パッチを反復的に抽出する。
現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。
論文 参考訳(メタデータ) (2020-08-04T22:18:35Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。