論文の概要: Robots Understanding Contextual Information in Human-Centered
Environments using Weakly Supervised Mask Data Distillation
- arxiv url: http://arxiv.org/abs/2012.08282v1
- Date: Tue, 15 Dec 2020 13:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:11:34.617753
- Title: Robots Understanding Contextual Information in Human-Centered
Environments using Weakly Supervised Mask Data Distillation
- Title(参考訳): 弱教師付きマスクデータ蒸留による人間中心環境における文脈情報理解ロボット
- Authors: Daniel Dworakowski, and Goldie Nejat
- Abstract要約: 疑似セグメンテーションラベル(PSL)を自動生成するための新しいWeakly Supervised Mask Data Distillation(WeSuperMaDD)アーキテクチャを紹介します。
提案アーキテクチャでは,コスト制約を満たす最小のフォアグラウンド画素でPSLを自動的に検索するマスクリファインメントシステムを採用している。
- 参考スコア(独自算出の注目度): 2.0303656145222857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual information in human environments, such as signs, symbols, and
objects provide important information for robots to use for exploration and
navigation. To identify and segment contextual information from complex images
obtained in these environments, data-driven methods such as Convolutional
Neural Networks (CNNs) are used. However, these methods require large amounts
of human labeled data which are slow and time-consuming to obtain. Weakly
supervised methods address this limitation by generating pseudo segmentation
labels (PSLs). In this paper, we present the novel Weakly Supervised Mask Data
Distillation (WeSuperMaDD) architecture for autonomously generating PSLs using
CNNs not specifically trained for the task of context segmentation; i.e., CNNs
trained for object classification, image captioning, etc. WeSuperMaDD uniquely
generates PSLs using learned image features from sparse and limited diversity
data; common in robot navigation tasks in human-centred environments (malls,
grocery stores). Our proposed architecture uses a new mask refinement system
which automatically searches for the PSL with the fewest foreground pixels that
satisfies cost constraints. This removes the need for handcrafted heuristic
rules. Extensive experiments successfully validated the performance of
WeSuperMaDD in generating PSLs for datasets with text of various scales, fonts,
and perspectives in multiple indoor/outdoor environments. A comparison with
Naive, GrabCut, and Pyramid methods found a significant improvement in label
and segmentation quality. Moreover, a context segmentation CNN trained using
the WeSuperMaDD architecture achieved measurable improvements in accuracy
compared to one trained with Naive PSLs. Our method also had comparable
performance to existing state-of-the-art text detection and segmentation
methods on real datasets without requiring segmentation labels for training.
- Abstract(参考訳): サイン、シンボル、オブジェクトなどの人間の環境におけるコンテキスト情報は、ロボットが探索やナビゲーションに使用する重要な情報を提供する。
これらの環境で得られた複雑な画像からコンテキスト情報を識別および分割するために、畳み込みニューラルネットワーク(CNN)のようなデータ駆動方式を用いる。
しかし,これらの手法には,低速かつ時間を要する大量のラベル付きデータが必要である。
弱教師付き手法は擬似セグメンテーションラベル(PSL)を生成することでこの制限に対処する。
本稿では、コンテキストセグメンテーションのタスクに特化して訓練されていないCNN、すなわちオブジェクト分類や画像キャプションなどを用いて、PSLを自律的に生成するWeakly Supervised Mask Data Distillation(WeSuperMaDD)アーキテクチャを提案する。
WeSuperMaDDは、人中心環境(モール、食料品店)におけるロボットナビゲーションタスクに共通する、スパースと限られた多様性データから学習画像特徴を用いて、PSLを独自に生成する。
提案アーキテクチャでは,コスト制約を満たす最小のフォアグラウンド画素でPSLを自動的に検索するマスクリファインメントシステムを採用している。
これにより、手作りのヒューリスティックルールが不要になる。
大規模な実験により、複数の屋内/屋外環境における様々なスケール、フォント、視点のテキストによるデータセットのPSLを生成するWeSuperMaDDの性能が検証された。
ナイーブ法、グラブカット法、ピラミッド法との比較により、ラベルとセグメンテーションの品質が著しく向上した。
さらに,WeSuperMaDDアーキテクチャを用いてトレーニングしたコンテキストセグメンテーションCNNは,Naive PSLを用いてトレーニングしたコンテキストセグメンテーションに比べて精度が向上した。
また,既存のテキスト検出や実データセットのセグメンテーション手法と同等の性能を有しており,トレーニングにはセグメンテーションラベルを必要としなかった。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - Self-supervised Transfer Learning for Instance Segmentation through
Physical Interaction [25.956451840257916]
本稿では,ロボットが自己指導型で環境と対話してオブジェクトをセグメント化することを学習するための移動学習手法を提案する。
我々のロボットは未知の物体をテーブルの上に押し込み、光学フローからの情報を用いて物体マスクの形でトレーニングラベルを作成する。
学習したネットワーク(SelfDeepMask)を,難易度と散らかったシーンを新しいオブジェクトで表現した実画像群を用いて評価した。
論文 参考訳(メタデータ) (2020-05-19T14:31:24Z) - From text saliency to linguistic objects: learning linguistic
interpretable markers with a multi-channels convolutional architecture [2.064612766965483]
本稿では,分類プロセスを利用したテキストから解釈可能な言語オブジェクトを抽出するために,実装されたCNNの隠れ層を検査する手法を提案する。
我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-07T10:46:58Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。