Fugu-MT 論文翻訳(概要): Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models

論文の概要: Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models

arxiv url: http://arxiv.org/abs/2405.02162v3
Date: Thu, 10 Oct 2024 16:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 09:57:02.649377
Title: Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
Title（参考訳）: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
Authors: Mohamad Al Mdfaa, Raghad Salameh, Sergey Zagoruyko, Gonzalo Ferrer,
Abstract要約: 本稿では,UPPM法について述べる。 UPPMは、従来のパン光学マッピング技術に動的ラベリング戦略を取り入れている。その結果、UPPMは、リッチなセマンティックラベルを生成しながら、シーンやセグメントオブジェクトを正確に再構築できることがわかった。
参考スコア（独自算出の注目度）: 3.127265144073288
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with complex environments. Conventional panoptic mapping methods, however, are limited by predefined semantic classes, thus making them ineffective for handling novel or unforeseen objects. In response to this limitation, we introduce the Unified Promptable Panoptic Mapping (UPPM) method. UPPM utilizes recent advances in foundation models to enable real-time, on-demand label generation using natural language prompts. By incorporating a dynamic labeling strategy into traditional panoptic mapping techniques, UPPM provides significant improvements in adaptability and versatility while maintaining high performance levels in map reconstruction. We demonstrate our approach on real-world and simulated datasets. Results show that UPPM can accurately reconstruct scenes and segment objects while generating rich semantic labels through natural language interactions. A series of ablation experiments validated the advantages of foundation model-based labeling over fixed label sets.
Abstract（参考訳）: ロボット工学とコンピュータビジョンの分野では、複雑な環境を理解し、相互作用できるインテリジェントマシンの需要が高まっているため、効率的で正確なセマンティックマッピングは依然として大きな課題である。しかし、従来のパノプティックマッピング手法は定義済みのセマンティッククラスによって制限されているため、新しいオブジェクトや予期せぬオブジェクトを扱うのに効果がない。この制限に対応するために、UPPM法(Unified Promptable Panoptic Mapping)を導入する。 UPPMは、ファンデーションモデルの最近の進歩を利用して、自然言語プロンプトを使用してリアルタイムのオンデマンドラベル生成を可能にする。従来のパン光学マッピング技術に動的ラベリング戦略を取り入れることで、UPPMは、マップ再構成における高い性能レベルを維持しながら、適応性と汎用性を大幅に改善する。実世界およびシミュレートされたデータセットに対する我々のアプローチを実証する。その結果,UPPMはシーンやセグメントオブジェクトを正確に再構成し,自然言語の相互作用によってリッチなセマンティックラベルを生成することができることがわかった。一連のアブレーション実験は、固定ラベル集合に対する基礎モデルに基づくラベル付けの利点を検証した。

関連論文リスト

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation [15.116320098263149]
MapBERTは、目に見えない空間の分布をモデル化するために設計された新しいフレームワークである。本研究では,MapBERTが最先端のセマンティックマップ生成を実現することを示す。 Gibsonベンチマークの実験では、MapBERTが最先端のセマンティックマップ生成を実現している。
論文参考訳（メタデータ） (2025-06-09T01:55:55Z)
Weakly-Supervised Affordance Grounding Guided by Part-Level Semantic Priors [22.957096921873678]
擬似ラベルに基づく教師あり学習パイプラインを開発した。擬似ラベルは、空き地から部品名へのマッピングによってガイドされる、既製の部品分割モデルから生成される。これらのテクニックは,既成の基盤モデルに埋め込まれた静的オブジェクトの意味的知識を活用して,手頃な学習を改善する。
論文参考訳（メタデータ） (2025-05-30T01:12:39Z)
Leveraging Foundation Models for Multimodal Graph-Based Action Recognition [1.533133219129073]
動的視覚符号化のためのビデオMAEとコンテキストテキスト埋め込みのためのBERTを統合したグラフベースのフレームワークを提案する。提案手法は,多様なベンチマークデータセット上で,最先端のベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-05-21T07:15:14Z)
Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0]
本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文参考訳（メタデータ） (2025-03-25T02:12:35Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Mapping High-level Semantic Regions in Indoor Environments without Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文参考訳（メタデータ） (2024-03-11T18:09:50Z)
Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain [18.165807360855435]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文参考訳（メタデータ） (2024-03-11T04:49:41Z)
Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文参考訳（メタデータ） (2023-09-22T15:44:10Z)
A Multi-label Classification Approach to Increase Expressivity of EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文参考訳（メタデータ） (2023-09-13T20:21:41Z)
Knowledge-augmented Frame Semantic Parsing with Hybrid Prompt-tuning [17.6573121083417]
本稿では,意味表現を強化するための知識強化フレーム意味解析アーキテクチャ(KAF-SPA)を提案する。メモリベースの知識抽出モジュール(MKEM)は、正確なフレーム知識を選択し、連続的なテンプレートを構築するために考案された。我々はまた、選択した知識をPLMに組み込むハイブリッドプロンプトを用いてタスク指向知識探索モジュール(TKPM)を設計し、フレームおよび引数識別のタスクにPLMを適用する。
論文参考訳（メタデータ） (2023-03-25T06:41:19Z)
Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文参考訳（メタデータ） (2023-03-23T12:39:20Z)
UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文参考訳（メタデータ） (2022-10-23T15:24:47Z)
Graph Adaptive Semantic Transfer for Cross-domain Sentiment Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文参考訳（メタデータ） (2022-05-18T07:47:01Z)
Lightweight Object-level Topological Semantic Mapping and Long-term Global Localization based on Graph Matching [19.706907816202946]
本稿では,高精度でロバストなオブジェクトレベルのマッピングとローカライズ手法を提案する。我々は、環境のランドマークをモデル化するために、意味情報と幾何学情報の両方を持つオブジェクトレベルの特徴を使用する。提案したマップに基づいて,新たな局所的シーングラフ記述子を構築することにより,ロバストなローカライゼーションを実現する。
論文参考訳（メタデータ） (2022-01-16T05:47:07Z)
Generating Synthetic Data for Task-Oriented Semantic Parsing with Hierarchical Representations [0.8203855808943658]
本研究では,ニューラルセマンティック解析のための合成データ生成の可能性を検討する。具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて合成発話条件を生成する。ナビゲーション領域のためのFacebook TOPデータセットを評価する際に、我々のアプローチの可能性を示す。
論文参考訳（メタデータ） (2020-11-03T22:55:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。