論文の概要: Graph-based Semantic Calibration Network for Unaligned UAV RGBT Image Semantic Segmentation and A Large-scale Benchmark
- arxiv url: http://arxiv.org/abs/2604.26893v2
- Date: Sun, 03 May 2026 05:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:06.98629
- Title: Graph-based Semantic Calibration Network for Unaligned UAV RGBT Image Semantic Segmentation and A Large-scale Benchmark
- Title(参考訳): 非整合UAV RGBT画像セマンティックセグメンテーションのためのグラフベースセマンティックキャリブレーションネットワークと大規模ベンチマーク
- Authors: Fangqiang Fan, Zhicheng Zhao, Xiaoliang Ma, Chenglong Li, Jin Tang,
- Abstract要約: 微細なRGBT画像セマンティックセマンティックセグメンテーションは、全天候無人航空機(UAV)のシーン理解に不可欠である。
UAV RGBT画像セマンティックセマンティックスセグメンテーションのためのグラフベースセマンティックネットワーク(GSCNet)を提案する。
GSCNetは最先端の手法よりも優れており,粒度の細かいカテゴリーでは顕著に向上している。
- 参考スコア(独自算出の注目度): 18.688304653741522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained RGBT image semantic segmentation is crucial for all-weather unmanned aerial vehicle (UAV) scene understanding. However, UAV RGBT image semantic segmentation faces two coupled challenges: cross-modal spatial misalignment caused by sensor parallax and platform vibration, and severe semantic confusion among fine-grained ground objects under top-down aerial views. To address these issues, we propose a Graph-based Semantic Calibration Network (GSCNet) for unaligned UAV RGBT image semantic segmentation. Specifically, we design a Feature Decoupling and Alignment Module (FDAM) that decouples each modality into shared structural and private perceptual components and performs deformable alignment in the shared subspace, enabling robust spatial correction with reduced modality appearance interference. Moreover, we propose a Semantic Graph Calibration Module (SGCM) that explicitly encodes the hierarchical taxonomy and co-occurrence regularities among ground-object categories in UAV scenes into a structured category graph, and incorporates these priors into graph-attention reasoning to calibrate predictions of visually similar and rare categories. In addition, we construct the Unaligned RGB-Thermal Fine-grained (URTF) benchmark, to the best of our knowledge, the largest and most fine-grained benchmark for unaligned UAV RGBT image semantic segmentation, containing over 25,000 image pairs across 61 semantic categories with realistic cross-modal misalignment. Extensive experiments on URTF demonstrate that GSCNet significantly outperforms state-of-the-art methods, with notable gains on fine-grained categories. The dataset is available at https://github.com/mmic-lcl/Datasets-and-benchmark-code.
- Abstract(参考訳): 微細なRGBT画像セマンティックセマンティックセグメンテーションは、全天候無人航空機(UAV)のシーン理解に不可欠である。
しかし、UAV RGBT画像のセマンティックセグメンテーションは、センサパララックスとプラットフォーム振動による空間的不整合と、上向きの空中視下での微粒な地上物体間の深刻なセマンティックな混同の2つの課題に直面している。
これらの問題に対処するために、不整合UAV RGBT画像セマンティックセマンティックセマンティックセマンティックセマンティックネットワーク(GSCNet)を提案する。
具体的には、各モダリティを共有構造的およびプライベートな知覚的構成要素に分解し、共有部分空間内で変形可能なアライメントを行う機能デカップリング・アライメント・モジュール(FDAM)を設計し、モダリティの出現干渉を低減し、ロバストな空間補正を可能にする。
さらに,UAVシーンにおける地上対象カテゴリの階層的分類と共起規則性を明示的に構造化したセマンティックグラフキャリブレーションモジュール(SGCM)を提案する。
さらに,Unaligned RGB-Thermal Fine-fine (URTF) ベンチマークを構築し,UAV RGBT画像セマンティックセマンティックセグメンテーションにおける最大かつ最もきめ細かいベンチマークである。
URTFに関する大規模な実験により、GSCNetは最先端の手法を著しく上回り、細粒度のカテゴリーで顕著に向上していることが示された。
データセットはhttps://github.com/mmic-lcl/Datasets-and-benchmark-codeで公開されている。
関連論文リスト
- Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization [17.908597896653045]
本稿では,対象物検出によるマップマッチングを行うUAVローカライゼーションフレームワークを提案する。
典型的なパイプラインでは、UAVの視覚的ローカライゼーションは画像検索の問題として定式化されている。
本手法は, グラフベースノード類似度測定法を用いて, 高精度な検索とローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-11-04T11:25:31Z) - GSAlign: Geometric and Semantic Alignment Network for Aerial-Ground Person Re-Identification [32.31970656501684]
Aerial-Ground person re-identification (AG-ReID) は、歩行者のイメージを根本的に異なる視点からマッチングすることを目的とした、新たな課題である。
この課題は、極端に視点のずれ、ワープ、空中画像と地上画像の間の領域ギャップのために重大な課題を生じさせる。
論文 参考訳(メタデータ) (2025-10-25T12:16:10Z) - UnSeGArmaNet: Unsupervised Image Segmentation using Graph Neural Networks with Convolutional ARMA Filters [10.940349832919699]
事前学習したViTを用いた教師なしセグメンテーションフレームワークを提案する。
画像内に固有のグラフ構造を利用することにより,セグメント化における顕著な性能を実現する。
提案手法は,ベンチマーク画像セグメンテーションデータセット上での最先端性能(教師付き手法に匹敵する)を提供する。
論文 参考訳(メタデータ) (2024-10-08T15:10:09Z) - Optimizing against Infeasible Inclusions from Data for Semantic Segmentation through Morphology [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
InSeInは、手元に設定されたセグメンテーショントレーニングから空間クラス関係を規定する明示的な包含制約を抽出する。
そして、予測可能性を促進するために、トレーニング中にこれらの制約の違反を罰する形態的だが差別的な損失を強制する。
論文 参考訳(メタデータ) (2024-08-26T22:39:08Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Context-self contrastive pretraining for crop type semantic segmentation [39.81074867563505]
提案したContext-Self Contrastive Loss (CSCL)は、セマンティックバウンダリをポップアップさせる埋め込み空間を学習する。
衛星画像時系列(SITS)からの作物型セマンティックセマンティックセグメンテーションでは,サテライト境界における性能が重要なボトルネックとなる。
より粒度の高い作物のクラスを得るための超解像における意味的セグメンテーションのプロセスを提案する。
論文 参考訳(メタデータ) (2021-04-09T11:29:44Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。