論文の概要: Annotation Free Spacecraft Detection and Segmentation using Vision Language Models
- arxiv url: http://arxiv.org/abs/2602.04699v1
- Date: Wed, 04 Feb 2026 16:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.610508
- Title: Annotation Free Spacecraft Detection and Segmentation using Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた注釈自由な宇宙機検出とセグメンテーション
- Authors: Samet Hicsonmez, Jose Sosa, Dan Pineau, Inder Pal Singh, Arunkumar Rathinam, Abd El Rahman Shabayek, Djamila Aouada,
- Abstract要約: 視覚言語モデル(VLM)は、オープンワールドのゼロショット視覚認識において顕著な性能を示した。
本稿では,VLMを用いた空間目標に対するアノテーションのない検出・セグメンテーションパイプラインを提案する。
我々のアプローチは、事前訓練されたVLMを用いて、ラベルのない実データの小さなサブセットに対して擬似ラベルを自動的に生成することから始まる。
擬似ラベルに固有のノイズにもかかわらず、蒸留プロセスは直接ゼロショットVLM推論よりもかなりの性能向上をもたらす。
- 参考スコア(独自算出の注目度): 14.77089626655396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have demonstrated remarkable performance in open-world zero-shot visual recognition. However, their potential in space-related applications remains largely unexplored. In the space domain, accurate manual annotation is particularly challenging due to factors such as low visibility, illumination variations, and object blending with planetary backgrounds. Developing methods that can detect and segment spacecraft and orbital targets without requiring extensive manual labeling is therefore of critical importance. In this work, we propose an annotation-free detection and segmentation pipeline for space targets using VLMs. Our approach begins by automatically generating pseudo-labels for a small subset of unlabeled real data with a pre-trained VLM. These pseudo-labels are then leveraged in a teacher-student label distillation framework to train lightweight models. Despite the inherent noise in the pseudo-labels, the distillation process leads to substantial performance gains over direct zero-shot VLM inference. Experimental evaluations on the SPARK-2024, SPEED+, and TANGO datasets on segmentation tasks demonstrate consistent improvements in average precision (AP) by up to 10 points. Code and models are available at https://github.com/giddyyupp/annotation-free-spacecraft-segmentation.
- Abstract(参考訳): 視覚言語モデル(VLM)は、オープンワールドのゼロショット視覚認識において顕著な性能を示した。
しかし、宇宙関連の応用におけるその可能性はほとんど未解明のままである。
宇宙領域では、視界の低さ、照明のばらつき、惑星の背景と混ざり合う物体などの要因により、正確な手動アノテーションは特に困難である。
そのため、大規模な手動ラベリングを必要とせず、宇宙船や軌道目標を検出・分割する手法の開発が重要である。
本研究では,VLMを用いた空間目標に対するアノテーションのない検出・セグメンテーションパイプラインを提案する。
我々のアプローチは、事前訓練されたVLMを用いて、ラベルのない実データの小さなサブセットに対して擬似ラベルを自動的に生成することから始まる。
これらの擬似ラベルは、教師が学習するラベル蒸留フレームワークに利用され、軽量モデルのトレーニングを行う。
擬似ラベルに固有のノイズにもかかわらず、蒸留プロセスは直接ゼロショットVLM推論よりもかなりの性能向上をもたらす。
SPARK-2024, SPEED+, TANGOデータセットのセグメンテーションタスクに対する実験的評価により, 平均精度(AP)を最大10ポイント向上した。
コードとモデルはhttps://github.com/giddyyupp/annotation-free-spacecraft-segmentation.comで公開されている。
関連論文リスト
- VESPA: Towards un(Human)supervised Open-World Pointcloud Labeling for Autonomous Driving [1.623951368574041]
本稿では,LiDARの幾何学的精度をカメラ画像のセマンティック・リッチネスと融合させるマルチモーダル・オートラベリング・パイプラインであるVESPAを紹介する。
VESPAは、新しいカテゴリの発見をサポートし、地味なアノテーションやHDマップを必要とせず、高品質な3D擬似ラベルを生成する。
Nuscenesデータセットでは、VESPAはオブジェクト発見に52.95%、マルチクラスオブジェクト検出に46.54%のAPを達成している。
論文 参考訳(メタデータ) (2025-07-27T19:39:29Z) - DISCOVER: Data-driven Identification of Sub-activities via Clustering and Visualization for Enhanced Activity Recognition in Smart Homes [46.86909768552777]
本研究では,未ラベルセンサデータから詳細な人間のサブアクティビティを検出する手法であるdiscoVERについて,事前のセグメンテーションに頼ることなく紹介する。
広範に使用されているHARデータセットに対する再注釈演習を通じて,その効果を実証する。
論文 参考訳(メタデータ) (2025-02-11T20:02:24Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - SSTD: Stripe-Like Space Target Detection Using Single-Point Weak Supervision [3.1531267517553587]
Stripeライクな宇宙目標検出(SSTD)は、宇宙状況の認識を高め、宇宙船の挙動を評価する上で重要な役割を果たしている。
SSTDのための先駆的なデータセットであるAstroStripeSetは、学術資源のギャップを埋め、SSTDの研究を進めることを目的としている。
本稿では,手動ラベリングの課題に対する新たな解決法として,一点弱監督機能を備えた新しい教師学生ラベル進化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-25T15:02:24Z) - MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D
Object Detection [59.1417156002086]
MixSupは、大量の安価な粗いラベルと、Mixed-fine Supervisionの限られた数の正確なラベルを同時に活用する、より実用的なパラダイムである。
MixSupは、安価なクラスタアノテーションと10%のボックスアノテーションを使用して、完全な教師付きパフォーマンスの97.31%を達成している。
論文 参考訳(メタデータ) (2024-01-29T17:05:19Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - ePointDA: An End-to-End Simulation-to-Real Domain Adaptation Framework
for LiDAR Point Cloud Segmentation [111.56730703473411]
LiDARデータ上でディープニューラルネットワーク(DNN)をトレーニングするには、大規模なポイントワイドアノテーションが必要である。
シミュレーション・トゥ・リアル・ドメイン適応(SRDA)は、DNNを無制限の合成データと自動生成されたラベルで訓練する。
ePointDAは、自己教師付きドロップアウトノイズレンダリング、統計不変および空間適応型特徴アライメント、転送可能なセグメンテーション学習の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2020-09-07T23:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。