論文の概要: TowerDataset: A Heterogeneous Benchmark for Transmission Corridor Segmentation with a Global-Local Fusion Framework
- arxiv url: http://arxiv.org/abs/2604.16848v1
- Date: Sat, 18 Apr 2026 05:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.200432
- Title: TowerDataset: A Heterogeneous Benchmark for Transmission Corridor Segmentation with a Global-Local Fusion Framework
- Title(参考訳): TowerDataset:グローバルローカルフュージョンフレームワークによるトランスミッションコリダセグメンテーションのための不均一ベンチマーク
- Authors: Xu Cui, Xinyan Liu, Chen Yang, Zhaobo Qi, Beichen Zang, Weigang Zhang, Antoni B. Chan,
- Abstract要約: TowerDatasetは伝送補正セグメンテーションのための異種ベンチマークである。
長い回廊の幅を保ち、きめ細かい22クラスの分類を定義し、標準化された分割と評価プロトコルを提供している。
さらに,全シーン情報と局部情報情報を保存・融合するグローバル・ローカル・フュージョン・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 46.45117150541737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained semantic segmentation of transmission-corridor point clouds is fundamental for intelligent power-line inspection. However, current progress is limited by realistic data scarcity and the difficulty of modeling global corridor structure and local geometric details in long, heterogeneous scenes. Existing public datasets usually provide only a few coarse categories or short cropped scenes which overlook long-range structural dependencies, severe long-tail distributions, and subtle distinctions among safety-critical components. As a result, current methods are difficult to evaluate under realistic inspection settings, and their ability to preserve and integrate complementary global and local cues remains unclear. To address the above challenges, we introduce TowerDataset, a heterogeneous benchmark for transmission-corridor segmentation. TowerDataset contains 661 real-world scenes and about 2.466 billion points. It preserves long corridor extents, defines a fine-grained 22-class taxonomy, and provides standardized splits and evaluation protocols. In addition, we present a global-local fusion framework which preserves and fuses whole-scene and local-detail information. A whole-scene branch with NoCrop training and prototypical contrastive learning captures long-range topology and contextual dependencies. A block-wise local branch retains fine geometric structures. Both predictions are then fused and refined by geometric validation. This design allows the model to exploit both global relationships and local shape details when recognizing rare and confusing components. Experiments on TowerDataset and two public benchmarks demonstrate the challenge of the proposed benchmark and the robustness of our framework in real, complex, and heterogeneous transmission-corridor scenes. The dataset will be released soon at https://huggingface.co/datasets/tccx18/Towerdataset/tree/main.
- Abstract(参考訳): 伝送補正点雲の微細なセマンティックセマンティックセグメンテーションは、インテリジェントパワーラインインスペクションの基礎である。
しかし、現在の進歩は、現実的なデータ不足と、長い異種シーンにおける大域的な廊下構造と局所的な幾何学的詳細をモデル化することの難しさによって制限されている。
既存の公開データセットは通常、長距離構造上の依存関係、厳しい長い尾の分布、安全クリティカルなコンポーネント間の微妙な区別を見渡す、粗いカテゴリや短い刈り取りシーンのみを提供する。
その結果, 現実的な検査条件下での評価は困難であり, 補完的なグローバル・ローカル・キューを保存・統合する能力はいまだに不明である。
上記の課題に対処するために、伝送補正セグメンテーションのための異種ベンチマークであるT TowerDatasetを紹介する。
TowerDatasetには、661の現実世界のシーンと約2.46億のポイントがある。
長い回廊の幅を保ち、きめ細かい22クラスの分類を定義し、標準化された分割と評価プロトコルを提供している。
さらに,全シーン情報と局部情報情報を保存・融合するグローバル・ローカル・フュージョン・フレームワークを提案する。
NoCropトレーニングと原型的コントラスト学習を備えた全シーンブランチは、長距離トポロジとコンテキスト依存をキャプチャする。
ブロックワイド局所分岐は、微細な幾何学的構造を保持する。
両方の予測は、幾何的検証によって融合され、洗練される。
この設計により、希少かつ紛らわしいコンポーネントを認識する際に、グローバルな関係と局所的な形状の詳細の両方を利用することができる。
TowerDatasetと2つの公開ベンチマークの実験は、提案されたベンチマークの課題と、実、複雑、異質なトランスミッション・コリドールシーンにおける我々のフレームワークの堅牢性を示している。
データセットは近々https://huggingface.co/datasets/tccx18/Towerdataset/tree/mainでリリースされる。
関連論文リスト
- SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images [49.52402091341301]
現在のモデルは単純な単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオで表されると失敗する。
総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを紹介する。
また,SegEarth-R2 は RS における包括的言語誘導セグメンテーションのために設計されたMLLM アーキテクチャである。
論文 参考訳(メタデータ) (2025-12-23T03:10:17Z) - Robust Scene Coordinate Regression via Geometrically-Consistent Global Descriptors [52.57327385675752]
幾何学的構造と視覚的類似性の両方に整合したグローバルな記述子を学習するアグリゲータモジュールを提案する。
これにより、信頼できないオーバーラップスコアによる誤関連が修正される。
挑戦的なベンチマークの実験では、大規模環境ではかなりのローカライゼーションが得られた。
論文 参考訳(メタデータ) (2025-12-19T04:24:03Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - Graph-Guided Dual-Level Augmentation for 3D Scene Segmentation [21.553363236403822]
3Dポイントクラウドセグメンテーションは、シーン内の個々のポイントにセマンティックラベルを割り当てることを目的としている。
既存の手法では、大規模なアノテーションの負担を軽減するためにデータ拡張を採用するのが一般的である。
本稿では,現実的な3次元シーン合成のための2レベル制約付きグラフ誘導型データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-30T13:25:36Z) - GLCP: Global-to-Local Connectivity Preservation for Tubular Structure Segmentation [16.961703984508457]
本稿では,グローバル・ローカル・コネクティビティ保護(GLCP)フレームワークを提案する。
さらに,DAR(Dual-Attention-based Refinement)モジュールを設計し,セグメンテーション品質をさらに向上する。
我々のGLCPは、いくつかの最先端手法と比較して管状構造セグメンテーションの精度と連続性を向上する。
論文 参考訳(メタデータ) (2025-07-28T20:49:45Z) - GSTran: Joint Geometric and Semantic Coherence for Point Cloud Segmentation [33.72549134362884]
本稿では,セグメント化作業に適した新しい変圧器ネットワークであるGSTranを提案する。
提案するネットワークは主に,局所幾何学変換器と大域意味変換器の2つの主成分から構成される。
ShapeNetPartとS3DISベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-21T12:12:37Z) - SARN: Structurally-Aware Recurrent Network for Spatio-Temporal Disaggregation [8.636014676778682]
オープンデータは、通常プライバシーポリシーに従うために、しばしば空間的に集約される。しかし、粗い、異質な集約は、下流のAI/MLシステムに対する一貫性のある学習と統合を複雑にする。
本稿では,空間的注意層をGRU(Gated Recurrent Unit)モデルに統合したSARN(Structurely-Aware Recurrent Network)を提案する。
履歴学習データに制限のあるシナリオでは、ある都市変数に事前学習したモデルを、数百のサンプルのみを用いて、他の都市変数に対して微調整できることを示す。
論文 参考訳(メタデータ) (2023-06-09T21:01:29Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。