論文の概要: SegFly: A 2D-3D-2D Paradigm for Aerial RGB-Thermal Semantic Segmentation at Scale
- arxiv url: http://arxiv.org/abs/2603.17920v1
- Date: Wed, 18 Mar 2026 16:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.835855
- Title: SegFly: A 2D-3D-2D Paradigm for Aerial RGB-Thermal Semantic Segmentation at Scale
- Title(参考訳): SegFly: 2D-3D-2D Paradigm for Aerial RGB-Thermal Semantic Segmentation at Scale
- Authors: Markus Gross, Sai Bharadhwaj Matha, Rui Song, Viswanathan Muthuveerappan, Conrad Christoph, Julius Huber, Daniel Cremers,
- Abstract要約: 航空画像のセマンティックセグメンテーションのためのスケーラブルな幾何学駆動型2D-3D-2Dパラダイムを提案する。
RGBイメージの3%未満をセマンティック3Dポイントクラウドに持ち上げることで、RGBラベルの97%と熱ラベルの100%を生成します。
我々はこの2D-3D-2Dパラダイムを、中間アライメント空間として3次元幾何学を用いて、クロスモーダル画像登録に拡張する。
- 参考スコア(独自算出の注目度): 42.70356809606482
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation for uncrewed aerial vehicles (UAVs) is fundamental for aerial scene understanding, yet existing RGB and RGB-T datasets remain limited in scale, diversity, and annotation efficiency due to the high cost of manual labeling and the difficulties of accurate RGB-T alignment on off-the-shelf UAVs. To address these challenges, we propose a scalable geometry-driven 2D-3D-2D paradigm that leverages multi-view redundancy in high-overlap aerial imagery to automatically propagate labels from a small subset of manually annotated RGB images to both RGB and thermal modalities within a unified framework. By lifting less than 3% of RGB images into a semantic 3D point cloud and reprojecting it into all views, our approach enables dense pseudo ground-truth generation across large image collections, automatically producing 97% of RGB labels and 100% of thermal labels while achieving 91% and 88% annotation accuracy without any 2D manual refinement. We further extend this 2D-3D-2D paradigm to cross-modal image registration, using 3D geometry as an intermediate alignment space to obtain fully automatic, strong pixel-level RGB-T alignment with 87% registration accuracy and no hardware-level synchronization. Applying our framework to existing geo-referenced aerial imagery, we construct SegFly, a large-scale benchmark with over 20,000 high-resolution RGB images and more than 15,000 geometrically aligned RGB-T pairs spanning diverse urban, industrial, and rural environments across multiple altitudes and seasons. On SegFly, we establish the Firefly baseline for RGB and thermal semantic segmentation and show that both conventional architectures and vision foundation models benefit substantially from SegFly supervision, highlighting the potential of geometry-driven 2D-3D-2D pipelines for scalable multi-modal scene understanding. Data and Code available at https://github.com/markus-42/SegFly.
- Abstract(参考訳): 無人航空機(UAV)のセマンティックセグメンテーションは、航空シーンの理解に不可欠であるが、既存のRGBとRGB-Tデータセットは、手動ラベリングの高コストと、既製のUAVの正確なRGB-Tアライメントの難しさにより、スケール、多様性、アノテーションの効率に制限されている。
これらの課題に対処するために,高オーバラップの空中画像における多視点冗長性を利用して,手動で注釈付けされたRGB画像の小さなサブセットからRGBおよび熱モダリティの両方にラベルを自動伝搬する,スケーラブルな幾何学駆動2D-3D-2Dパラダイムを提案する。
提案手法は,RGB画像の3%未満をセマンティック3Dポイントクラウドに引き上げ,すべてのビューに再投影することにより,大規模な画像コレクションをまたいだ擬似地下構造生成を可能にし,RGBラベルの97%と熱ラベルの100%を自動生成すると同時に,2D手作業による修正を行なわずに,91%と88%の精度を達成できる。
さらに,この2D-3D-2Dパラダイムを,中間アライメント空間として3次元幾何を用いて,87%の登録精度とハードウェアレベルの同期を伴わず,完全自動かつ強力なRGB-Tアライメントが得られるように拡張する。
SegFlyは2万以上の高解像度RGB画像と15,000以上の幾何学的に整列されたRGB-Tペアで、都市、工業、農村の多様な環境にまたがる複数の高度と季節にまたがる大規模なベンチマークである。
SegFlyでは、RGBとサーマルセマンティックセグメンテーションのためのFireflyベースラインを確立し、従来のアーキテクチャとビジョン基盤モデルの両方がSegFlyの監督から大きく恩恵を受けており、スケーラブルなマルチモーダルシーン理解のための幾何学駆動2D-3D-2Dパイプラインの可能性を強調している。
データとコードはhttps://github.com/markus-42/SegFly.comで入手できる。
関連論文リスト
- Bidirectional Cross-Attention Fusion of High-Res RGB and Low-Res HSI for Multimodal Automated Waste Sorting [0.7166329363666318]
本稿では,高分解能なRGBと低分解能なHSIを,局所的,双方向なクロスアテンションを介してネイティブグリッドで整列させるBi Cross-Attention Fusion (BCAF)を提案する。
BCAFは31画像/sで76.4% mIoU、55画像/sで75.4% mIoUの最先端性能を達成した。
論文 参考訳(メタデータ) (2026-03-14T13:21:36Z) - Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation [14.377332218510743]
Top2Groundは、空中入力画像から地上画像を直接生成する新しい拡散法である。
本研究では,VAE符号化空間特徴の共役表現にデノナイジング過程を規定する。
Top2Groundは、広視野と狭視野の両方を強力に扱うことができ、その強力な一般化能力を強調している。
論文 参考訳(メタデータ) (2025-11-11T13:53:07Z) - Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting [4.2390854432099205]
現代のビジョン言語パイプラインは、大量の画像テキストコーパスでトレーニングされたRGBビジョンエンコーダによって駆動される。
これらのパイプラインは、ピクセル領域から2つの構造的非効率を継承する: (i) エッジデバイスからクラウドへ高密度のRGB画像を送信することはエネルギー集約的でコストがかかり、 (ii) パッチベースのトークン化はシーケンス長を爆発させる。
2次元ガウス散乱(2DGS)をアライメントのための代替視覚基板として検討する。
論文 参考訳(メタデータ) (2025-09-26T17:41:57Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [65.42565481489132]
人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。