論文の概要: Efficient Prediction of Dense Visual Embeddings via Distillation and RGB-D Transformers
- arxiv url: http://arxiv.org/abs/2601.00359v1
- Date: Thu, 01 Jan 2026 14:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.398615
- Title: Efficient Prediction of Dense Visual Embeddings via Distillation and RGB-D Transformers
- Title(参考訳): 蒸留とRGB-D変換器による高密度視覚埋め込みの効率的な予測
- Authors: Söhnke Benedikt Fischedick, Daniel Seichter, Benedict Stephan, Robin Schmidt, Horst-Michael Gross,
- Abstract要約: DVEFormerはRGB-D Transformerベースの効率的なアプローチであり、高密度テキスト整列型視覚埋め込みを予測する。
提案手法では,Alpha-CLIP の教師埋め込みを用いて,学生モデルの DVEFormer を微細なピクセル単位の埋め込み学習に活用する。
- 参考スコア(独自算出の注目度): 3.7046506702597988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In domestic environments, robots require a comprehensive understanding of their surroundings to interact effectively and intuitively with untrained humans. In this paper, we propose DVEFormer - an efficient RGB-D Transformer-based approach that predicts dense text-aligned visual embeddings (DVE) via knowledge distillation. Instead of directly performing classical semantic segmentation with fixed predefined classes, our method uses teacher embeddings from Alpha-CLIP to guide our efficient student model DVEFormer in learning fine-grained pixel-wise embeddings. While this approach still enables classical semantic segmentation, e.g., via linear probing, it further enables flexible text-based querying and other applications, such as creating comprehensive 3D maps. Evaluations on common indoor datasets demonstrate that our approach achieves competitive performance while meeting real-time requirements, operating at 26.3 FPS for the full model and 77.0 FPS for a smaller variant on an NVIDIA Jetson AGX Orin. Additionally, we show qualitative results that highlight the effectiveness and possible use cases in real-world applications. Overall, our method serves as a drop-in replacement for traditional segmentation approaches while enabling flexible natural-language querying and seamless integration into 3D mapping pipelines for mobile robotics.
- Abstract(参考訳): 家庭環境においては、ロボットは、訓練されていない人間と効果的かつ直感的に相互作用するために、周囲を包括的に理解する必要がある。
本稿では,知識蒸留による高密度テキスト整列型視覚埋め込み(DVE)の予測を行う,効率的なRGB-D変換器に基づくDVEFormerを提案する。
固定されたクラスで古典的セマンティックセマンティックセマンティクスを直接実行する代わりに,Alpha-CLIP の教師埋め込みを用いて,学生モデル DVEFormer を用いて,微細なピクセル単位の埋め込みを学習する。
このアプローチは、リニアプローブによる古典的なセマンティックセグメンテーションを可能にする一方で、柔軟なテキストベースのクエリや、包括的な3Dマップの作成など、他のアプリケーションも実現している。
一般的な屋内データセットの評価から,本手法は実時間要求を満たす上で,フルモデルでは26.3 FPS,NVIDIA Jetson AGX Orinでは77.0 FPSで動作し,競争性能が向上することが示された。
さらに、実世界のアプリケーションにおける有効性と可能なユースケースを強調する定性的な結果を示す。
全体として,本手法は従来のセグメンテーション手法の代替として機能し,フレキシブルな自然言語クエリとモバイルロボットのための3Dマッピングパイプラインへのシームレスな統合を実現している。
関連論文リスト
- URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction [9.311605679381529]
我々は,様々な占有ネットワークに適用可能な汎用言語誘導フレームワークLOCを提案する。
自己教師型タスクには,動的/静的シーンに多フレームLiDAR点を融合する戦略,ポアソン再構成を用いて空白を埋める手法,K-Nearest Neighbor (KNN) を介してボクセルに意味を割り当てる手法を用いる。
我々のモデルは,CLIP機能空間に埋め込まれた高密度なボクセル特徴を予測し,テキストと画像の画素情報を統合し,テキストとセマンティックの類似性に基づいて分類する。
論文 参考訳(メタデータ) (2025-10-25T03:27:19Z) - BlendCLIP: Bridging Synthetic and Real Domains for Zero-Shot 3D Object Classification with Multimodal Pretraining [2.400704807305413]
ゼロショットの3Dオブジェクト分類は、自動運転のような現実世界のアプリケーションには不可欠だ。
トレーニングに使用される合成データと、現実世界で遭遇するノイズの多いLiDARスキャンとの間の大きな領域ギャップによって、しばしば妨げられる。
BlendCLIPは、両ドメインの強みを戦略的に組み合わせることで、この合成と現実のギャップを橋渡しするマルチモーダル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-21T03:08:27Z) - OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots [18.200635521222267]
OV-MAPは、オブジェクト認識機能を高めるために、オープンな特徴を3Dマップに統合することで、移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。
我々は2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと、点雲から生の深度と合成の深度をマージして作成した補足深度画像を組み合わせた。
このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-06-13T08:49:23Z) - Query3D: LLM-Powered Open-Vocabulary Scene Segmentation with Language Embedded 3D Gaussian [9.316712964093506]
本稿では,自律運転におけるオープンな3次元シーンクエリのための新しい手法を提案する。
そこで我々は,Large Language Models (LLMs) を用いて,文脈的に正のフレーズを生成するとともに,肯定的な単語によるセグメンテーションとシーン解釈を支援することを提案する。
論文 参考訳(メタデータ) (2024-08-07T02:54:43Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。