論文の概要: CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory
- arxiv url: http://arxiv.org/abs/2210.05663v1
- Date: Tue, 11 Oct 2022 17:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:21:59.202518
- Title: CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory
- Title(参考訳): クリップフィールド:ロボットメモリのための弱い教師付きセマンティクスフィールド
- Authors: Nur Muhammad Mahi Shafiullah, Chris Paxton, Lerrel Pinto, Soumith
Chintala, Arthur Szlam
- Abstract要約: 直接人間の監督なしに訓練できる暗黙のシーンモデルであるCLIP-Fieldsを提案する。
マッピングは、WebイメージとCLIP、Detic、Sentence-BERTといったWebテキストトレーニングモデルからのみ、監視によってトレーニングすることができる。
シーンメモリとしてCLIP-Fieldsを使用することで,ロボットは実環境においてセマンティックナビゲーションを行うことができることを示す。
- 参考スコア(独自算出の注目度): 37.16559338755067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose CLIP-Fields, an implicit scene model that can be trained with no
direct human supervision. This model learns a mapping from spatial locations to
semantic embedding vectors. The mapping can then be used for a variety of
tasks, such as segmentation, instance identification, semantic search over
space, and view localization. Most importantly, the mapping can be trained with
supervision coming only from web-image and web-text trained models such as
CLIP, Detic, and Sentence-BERT. When compared to baselines like Mask-RCNN, our
method outperforms on few-shot instance identification or semantic segmentation
on the HM3D dataset with only a fraction of the examples. Finally, we show that
using CLIP-Fields as a scene memory, robots can perform semantic navigation in
real-world environments. Our code and demonstrations are available here:
https://mahis.life/clip-fields/
- Abstract(参考訳): 直接人間の監督なしに訓練できる暗黙のシーンモデルであるCLIP-Fieldsを提案する。
このモデルは空間的位置から意味的埋め込みベクトルへのマッピングを学ぶ。
マッピングは、セグメンテーション、インスタンス識別、空間上のセマンティック検索、ビューローカライゼーションなど、さまざまなタスクに使用することができる。
最も重要なのは、CLIP、Detic、Sentence-BERTといったWebイメージとWebテキストでトレーニングされたモデルからのみ、監視によってマッピングをトレーニングできることだ。
Mask-RCNNのようなベースラインと比較すると,HM3Dデータセットのインスタンス識別やセマンティックセマンティックセマンティックセグメンテーションに優れており,その例はごくわずかである。
最後に,CLIP-Fieldsをシーンメモリとして使用することで,ロボットは実環境においてセマンティックナビゲーションを行うことができることを示す。
私たちのコードとデモは以下の通りです。
関連論文リスト
- Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-11T14:19:05Z) - VL-Fields: Towards Language-Grounded Neural Implicit Spatial
Representations [15.265341472149034]
オープン語彙のセマンティッククエリを可能にする暗黙空間表現であるVisual-Language Fields (VL-Fields)を提案する。
我々のモデルは、言語駆動セグメンテーションモデルから情報を抽出することにより、視覚言語訓練された潜在特徴を持つシーンの幾何学を符号化し、融合する。
論文 参考訳(メタデータ) (2023-05-21T10:55:27Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene [8.357801312689622]
本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-04T20:10:14Z) - Open-Vocabulary Universal Image Segmentation with MaskCLIP [24.74805434602145]
我々は、新しいコンピュータビジョンタスク、オープン語彙のユニバーサルイメージセグメンテーションに取り組む。
トレーニング済みのCLIPモデルを直接適用することで,まずベースライン手法を構築する。
次に, MaskCLIP Visual を用いた Transformer ベースのアプローチである MaskCLIP を開発した。
論文 参考訳(メタデータ) (2022-08-18T17:55:37Z) - Adapting CLIP For Phrase Localization Without Further Training [30.467802103692378]
画像とキャプションのペアで事前学習したコントラスト言語ビジョンモデルであるCLIPを活用することを提案する。
我々は高分解能空間特徴写像を生成するためにCLIPを適用した。
フレーズローカライズのための手法は、人間のアノテーションや追加の訓練を必要としない。
論文 参考訳(メタデータ) (2022-04-07T17:59:38Z) - Segmentation in Style: Unsupervised Semantic Image Segmentation with
Stylegan and CLIP [39.0946507389324]
本研究では,人間の監督なしに画像を自動的に意味のある領域に分割する手法を提案する。
派生領域は、異なる画像間で一貫性があり、いくつかのデータセット上の人間定義のセマンティッククラスと一致する。
提案手法を公開データセット上でテストし,現状の成果を示す。
論文 参考訳(メタデータ) (2021-07-26T23:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。