論文の概要: Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
- arxiv url: http://arxiv.org/abs/2405.02162v3
- Date: Thu, 10 Oct 2024 16:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:58.885002
- Title: Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
- Title(参考訳): Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
- Authors: Mohamad Al Mdfaa, Raghad Salameh, Sergey Zagoruyko, Gonzalo Ferrer,
- Abstract要約: 本稿では,UPPM法について述べる。
UPPMは、従来のパン光学マッピング技術に動的ラベリング戦略を取り入れている。
その結果、UPPMは、リッチなセマンティックラベルを生成しながら、シーンやセグメントオブジェクトを正確に再構築できることがわかった。
- 参考スコア(独自算出の注目度): 3.127265144073288
- License:
- Abstract: In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with complex environments. Conventional panoptic mapping methods, however, are limited by predefined semantic classes, thus making them ineffective for handling novel or unforeseen objects. In response to this limitation, we introduce the Unified Promptable Panoptic Mapping (UPPM) method. UPPM utilizes recent advances in foundation models to enable real-time, on-demand label generation using natural language prompts. By incorporating a dynamic labeling strategy into traditional panoptic mapping techniques, UPPM provides significant improvements in adaptability and versatility while maintaining high performance levels in map reconstruction. We demonstrate our approach on real-world and simulated datasets. Results show that UPPM can accurately reconstruct scenes and segment objects while generating rich semantic labels through natural language interactions. A series of ablation experiments validated the advantages of foundation model-based labeling over fixed label sets.
- Abstract(参考訳): ロボット工学とコンピュータビジョンの分野では、複雑な環境を理解し、相互作用できるインテリジェントマシンの需要が高まっているため、効率的で正確なセマンティックマッピングは依然として大きな課題である。
しかし、従来のパノプティックマッピング手法は定義済みのセマンティッククラスによって制限されているため、新しいオブジェクトや予期せぬオブジェクトを扱うのに効果がない。
この制限に対応するために、UPPM法(Unified Promptable Panoptic Mapping)を導入する。
UPPMは、ファンデーションモデルの最近の進歩を利用して、自然言語プロンプトを使用してリアルタイムのオンデマンドラベル生成を可能にする。
従来のパン光学マッピング技術に動的ラベリング戦略を取り入れることで、UPPMは、マップ再構成における高い性能レベルを維持しながら、適応性と汎用性を大幅に改善する。
実世界およびシミュレートされたデータセットに対する我々のアプローチを実証する。
その結果,UPPMはシーンやセグメントオブジェクトを正確に再構成し,自然言語の相互作用によってリッチなセマンティックラベルを生成することができることがわかった。
一連のアブレーション実験は、固定ラベル集合に対する基礎モデルに基づくラベル付けの利点を検証した。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Joint-Embedding Masked Autoencoder for Self-supervised Learning of
Dynamic Functional Connectivity from the Human Brain [18.165807360855435]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。
本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文 参考訳(メタデータ) (2024-03-11T04:49:41Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - A Multi-label Classification Approach to Increase Expressivity of
EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。
動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文 参考訳(メタデータ) (2023-09-13T20:21:41Z) - Knowledge-augmented Frame Semantic Parsing with Hybrid Prompt-tuning [17.6573121083417]
本稿では,意味表現を強化するための知識強化フレーム意味解析アーキテクチャ(KAF-SPA)を提案する。
メモリベースの知識抽出モジュール(MKEM)は、正確なフレーム知識を選択し、連続的なテンプレートを構築するために考案された。
我々はまた、選択した知識をPLMに組み込むハイブリッドプロンプトを用いてタスク指向知識探索モジュール(TKPM)を設計し、フレームおよび引数識別のタスクにPLMを適用する。
論文 参考訳(メタデータ) (2023-03-25T06:41:19Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Lightweight Object-level Topological Semantic Mapping and Long-term
Global Localization based on Graph Matching [19.706907816202946]
本稿では,高精度でロバストなオブジェクトレベルのマッピングとローカライズ手法を提案する。
我々は、環境のランドマークをモデル化するために、意味情報と幾何学情報の両方を持つオブジェクトレベルの特徴を使用する。
提案したマップに基づいて,新たな局所的シーングラフ記述子を構築することにより,ロバストなローカライゼーションを実現する。
論文 参考訳(メタデータ) (2022-01-16T05:47:07Z) - Generating Synthetic Data for Task-Oriented Semantic Parsing with
Hierarchical Representations [0.8203855808943658]
本研究では,ニューラルセマンティック解析のための合成データ生成の可能性を検討する。
具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて合成発話条件を生成する。
ナビゲーション領域のためのFacebook TOPデータセットを評価する際に、我々のアプローチの可能性を示す。
論文 参考訳(メタデータ) (2020-11-03T22:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。