論文の概要: Open-vocabulary 3D scene perception in industrial environments
- arxiv url: http://arxiv.org/abs/2602.19823v1
- Date: Mon, 23 Feb 2026 13:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.826954
- Title: Open-vocabulary 3D scene perception in industrial environments
- Title(参考訳): 産業環境におけるオープンボキャブラリ3次元シーン認識
- Authors: Keno Moenck, Adrian Philip Florea, Julian Koch, Thorsten Schüppstuhl,
- Abstract要約: 2D Vision-Language Foundation Models (VLFMs) を利用した最近のオープン語彙法はこの課題をターゲットにしている。
まず、そのようなモデルが一般化に失敗し、一般的な産業オブジェクトでは性能が良くないことを実証する。
本稿では,この制限を克服する学習自由でオープンな3次元知覚パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous vision applications in production, intralogistics, or manufacturing environments require perception capabilities beyond a small, fixed set of classes. Recent open-vocabulary methods, leveraging 2D Vision-Language Foundation Models (VLFMs), target this task but often rely on class-agnostic segmentation models pre-trained on non-industrial datasets (e.g., household scenes). In this work, we first demonstrate that such models fail to generalize, performing poorly on common industrial objects. Therefore, we propose a training-free, open-vocabulary 3D perception pipeline that overcomes this limitation. Instead of using a pre-trained model to generate instance proposals, our method simply generates masks by merging pre-computed superpoints based on their semantic features. Following, we evaluate the domain-adapted VLFM "IndustrialCLIP" on a representative 3D industrial workshop scene for open-vocabulary querying. Our qualitative results demonstrate successful segmentation of industrial objects.
- Abstract(参考訳): 生産、内科、製造環境における自律的な視覚応用は、小さな固定されたクラス以上の知覚能力を必要とする。
2D Vision-Language Foundation Models (VLFMs)を活用する最近のオープン語彙法は、このタスクをターゲットとしているが、しばしば非工業的なデータセット(例えば家庭シーン)で事前訓練されたクラスに依存しないセグメンテーションモデルに依存している。
そこで本研究では,そのようなモデルが一般化に失敗し,一般的な産業オブジェクトに不利な結果をもたらすことを最初に実証する。
そこで本研究では,この制限を克服する学習自由でオープンな3次元知覚パイプラインを提案する。
提案手法では,事前学習モデルを用いてインスタンス提案を生成する代わりに,その意味的特徴に基づいて事前計算されたスーパーポイントをマージしてマスクを生成する。
次に、ドメイン適応型VLFM"IndustrialCLIP"を、オープン語彙クエリのための3D産業ワークショップシーンで評価する。
我々の定性的な結果は、産業オブジェクトのセグメンテーションが成功したことを示す。
関連論文リスト
- IADGPT: Unified LVLM for Few-Shot Industrial Anomaly Detection, Localization, and Reasoning via In-Context Learning [18.078896149087576]
Few-Shot Industrial Anomaly Detection (FS-IAD) は産業品質検査の自動化に重要な応用例である。
我々は,FS-IADを人間的な方法で実行するための統合フレームワーク IADGPT を提案する。
本稿では,400種類の産業製品カテゴリにまたがる100K画像からなる新しいデータセットについて述べる。
論文 参考訳(メタデータ) (2025-08-14T14:24:47Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings [0.0]
産業用言語画像データセット(ILID)をWebcrawledデータに基づいて生成するパイプラインを提案する。
本稿では,安価なILIDを学習した後に,効果的な自己指導型トランスファー学習と下流タスクの議論を行う。
論文 参考訳(メタデータ) (2024-06-14T00:06:52Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。