論文の概要: Robots Understanding Contextual Information in Human-Centered
Environments using Weakly Supervised Mask Data Distillation
- arxiv url: http://arxiv.org/abs/2012.08282v1
- Date: Tue, 15 Dec 2020 13:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:11:34.617753
- Title: Robots Understanding Contextual Information in Human-Centered
Environments using Weakly Supervised Mask Data Distillation
- Title(参考訳): 弱教師付きマスクデータ蒸留による人間中心環境における文脈情報理解ロボット
- Authors: Daniel Dworakowski, and Goldie Nejat
- Abstract要約: 疑似セグメンテーションラベル(PSL)を自動生成するための新しいWeakly Supervised Mask Data Distillation(WeSuperMaDD)アーキテクチャを紹介します。
提案アーキテクチャでは,コスト制約を満たす最小のフォアグラウンド画素でPSLを自動的に検索するマスクリファインメントシステムを採用している。
- 参考スコア(独自算出の注目度): 2.0303656145222857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual information in human environments, such as signs, symbols, and
objects provide important information for robots to use for exploration and
navigation. To identify and segment contextual information from complex images
obtained in these environments, data-driven methods such as Convolutional
Neural Networks (CNNs) are used. However, these methods require large amounts
of human labeled data which are slow and time-consuming to obtain. Weakly
supervised methods address this limitation by generating pseudo segmentation
labels (PSLs). In this paper, we present the novel Weakly Supervised Mask Data
Distillation (WeSuperMaDD) architecture for autonomously generating PSLs using
CNNs not specifically trained for the task of context segmentation; i.e., CNNs
trained for object classification, image captioning, etc. WeSuperMaDD uniquely
generates PSLs using learned image features from sparse and limited diversity
data; common in robot navigation tasks in human-centred environments (malls,
grocery stores). Our proposed architecture uses a new mask refinement system
which automatically searches for the PSL with the fewest foreground pixels that
satisfies cost constraints. This removes the need for handcrafted heuristic
rules. Extensive experiments successfully validated the performance of
WeSuperMaDD in generating PSLs for datasets with text of various scales, fonts,
and perspectives in multiple indoor/outdoor environments. A comparison with
Naive, GrabCut, and Pyramid methods found a significant improvement in label
and segmentation quality. Moreover, a context segmentation CNN trained using
the WeSuperMaDD architecture achieved measurable improvements in accuracy
compared to one trained with Naive PSLs. Our method also had comparable
performance to existing state-of-the-art text detection and segmentation
methods on real datasets without requiring segmentation labels for training.
- Abstract(参考訳): サイン、シンボル、オブジェクトなどの人間の環境におけるコンテキスト情報は、ロボットが探索やナビゲーションに使用する重要な情報を提供する。
これらの環境で得られた複雑な画像からコンテキスト情報を識別および分割するために、畳み込みニューラルネットワーク(CNN)のようなデータ駆動方式を用いる。
しかし,これらの手法には,低速かつ時間を要する大量のラベル付きデータが必要である。
弱教師付き手法は擬似セグメンテーションラベル(PSL)を生成することでこの制限に対処する。
本稿では、コンテキストセグメンテーションのタスクに特化して訓練されていないCNN、すなわちオブジェクト分類や画像キャプションなどを用いて、PSLを自律的に生成するWeakly Supervised Mask Data Distillation(WeSuperMaDD)アーキテクチャを提案する。
WeSuperMaDDは、人中心環境(モール、食料品店)におけるロボットナビゲーションタスクに共通する、スパースと限られた多様性データから学習画像特徴を用いて、PSLを独自に生成する。
提案アーキテクチャでは,コスト制約を満たす最小のフォアグラウンド画素でPSLを自動的に検索するマスクリファインメントシステムを採用している。
これにより、手作りのヒューリスティックルールが不要になる。
大規模な実験により、複数の屋内/屋外環境における様々なスケール、フォント、視点のテキストによるデータセットのPSLを生成するWeSuperMaDDの性能が検証された。
ナイーブ法、グラブカット法、ピラミッド法との比較により、ラベルとセグメンテーションの品質が著しく向上した。
さらに,WeSuperMaDDアーキテクチャを用いてトレーニングしたコンテキストセグメンテーションCNNは,Naive PSLを用いてトレーニングしたコンテキストセグメンテーションに比べて精度が向上した。
また,既存のテキスト検出や実データセットのセグメンテーション手法と同等の性能を有しており,トレーニングにはセグメンテーションラベルを必要としなかった。
関連論文リスト
- Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - From Explanations to Segmentation: Using Explainable AI for Image
Segmentation [1.8581514902689347]
我々は、説明可能なAI(XAI)コミュニティの進歩の上に構築し、ピクセル単位のバイナリセグメンテーションを抽出する。
我々は,既存のU-Netセグメンテーションアーキテクチャと比較して,同様の結果が得られることを示す。
トレーニングサンプルは画像レベルでのみラベル付けする必要があるため,提案手法は弱教師付きでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-01T10:26:10Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Context-self contrastive pretraining for crop type semantic segmentation [65.32800740616835]
提案する文脈自己コントラスト損失(cscl)は、意味境界をポップアップさせる埋め込み空間を学習する。
衛星画像からの作物型セマンティックセマンティックセグメンテーションでは、パーセル境界における性能が重要なボトルネックとなる。
CSCLが課題の根本原因にどのように取り組むかを示し、その課題における最先端の性能を改善する。
論文 参考訳(メタデータ) (2021-04-09T11:29:44Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。