論文の概要: Laser: Efficient Language-Guided Segmentation in Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2501.19084v1
- Date: Fri, 31 Jan 2025 12:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:48.163248
- Title: Laser: Efficient Language-Guided Segmentation in Neural Radiance Fields
- Title(参考訳): レーザー: ニューラルネットワーク分野における効率的な言語誘導セグメンテーション
- Authors: Xingyu Miao, Haoran Duan, Yang Bai, Tejal Shah, Jun Song, Yang Long, Rajiv Ranjan, Ling Shao,
- Abstract要約: 本稿では,CLIP特徴蒸留を利用して,言語指導による効率的な3次元セグメンテーションを実現する手法を提案する。
これを実現するために,我々は,高密度CLIP特徴蒸留プロセスにおいて,アダプタモジュールを導入し,ノイズ問題を緩和する。
本手法は, 訓練速度と性能の両面で, 現在の最先端技術を上回っている。
- 参考スコア(独自算出の注目度): 49.66011190843893
- License:
- Abstract: In this work, we propose a method that leverages CLIP feature distillation, achieving efficient 3D segmentation through language guidance. Unlike previous methods that rely on multi-scale CLIP features and are limited by processing speed and storage requirements, our approach aims to streamline the workflow by directly and effectively distilling dense CLIP features, thereby achieving precise segmentation of 3D scenes using text. To achieve this, we introduce an adapter module and mitigate the noise issue in the dense CLIP feature distillation process through a self-cross-training strategy. Moreover, to enhance the accuracy of segmentation edges, this work presents a low-rank transient query attention mechanism. To ensure the consistency of segmentation for similar colors under different viewpoints, we convert the segmentation task into a classification task through label volume, which significantly improves the consistency of segmentation in color-similar areas. We also propose a simplified text augmentation strategy to alleviate the issue of ambiguity in the correspondence between CLIP features and text. Extensive experimental results show that our method surpasses current state-of-the-art technologies in both training speed and performance. Our code is available on: https://github.com/xingy038/Laser.git.
- Abstract(参考訳): 本研究では,CLIP特徴蒸留を利用して,言語指導による効率的な3次元セグメンテーションを実現する手法を提案する。
マルチスケールCLIP機能に依存し,処理速度やストレージ要件によって制限される従来の方法とは異なり,本手法では,高密度CLIP機能を直接的かつ効果的に蒸留することでワークフローの合理化を図り,テキストによる3Dシーンの正確なセグメンテーションを実現する。
これを実現するために,我々はアダプタモジュールを導入し,自己クロストレーニング戦略を通じて高密度CLIP特徴蒸留プロセスにおけるノイズ問題を緩和する。
さらに,セグメンテーションエッジの精度を高めるために,低ランクな過渡的なクエリアテンション機構を提案する。
異なる視点における類似色に対するセグメンテーションの整合性を確保するため、ラベルボリュームを用いてセグメンテーションタスクを分類タスクに変換し、色相似領域におけるセグメンテーションの整合性を大幅に改善する。
また,CLIP特徴とテキストの対応におけるあいまいさの問題を軽減するため,簡易なテキスト拡張戦略を提案する。
実験結果から,本手法は訓練速度と性能の両面で現在の最先端技術を上回っていることが明らかとなった。
私たちのコードは、https://github.com/xingy038/Laser.gitで利用可能です。
関連論文リスト
- LiSD: An Efficient Multi-Task Learning Framework for LiDAR Segmentation and Detection [6.813145466843275]
LiSDはボクセルベースのエンコーダデコーダフレームワークで、セグメンテーションと検出の両方のタスクに対処する。
これは、ライダーのみの手法のnuScenesセグメンテーションベンチマークにおいて、83.3% mIoUの最先端性能を達成する。
論文 参考訳(メタデータ) (2024-06-11T07:26:54Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Semantic Layering in Room Segmentation via LLMs [4.3154860982892425]
SeLRoSは、Large Language Models (LLM) と従来の2次元マップベースのセグメンテーションを統合することによって、セマンティックルームセグメンテーションの高度な手法である。
セグメント化された各領域に関する複雑な情報を解釈し、整理する新しいフレームワークを提供する。
SeLRoSの有効性は30種類の異なる3D環境にまたがって検証される。
論文 参考訳(メタデータ) (2024-03-19T17:23:44Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic
Segmentation For-Free [12.15899043709721]
CLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案する。
異なるサイズのパッチに対してCLIP分類機能を活用し、決定を単一のマップに集約する。
PASCAL VOCでは,最先端のゼロショットセマンティックセマンティックセマンティクスが得られ,COCOのベストメソッドと同等に動作する。
論文 参考訳(メタデータ) (2023-09-25T16:52:59Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。