論文の概要: TTPLA: An Aerial-Image Dataset for Detection and Segmentation of
Transmission Towers and Power Lines
- arxiv url: http://arxiv.org/abs/2010.10032v1
- Date: Tue, 20 Oct 2020 04:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:14:18.930763
- Title: TTPLA: An Aerial-Image Dataset for Detection and Segmentation of
Transmission Towers and Power Lines
- Title(参考訳): TTPLA:送電塔と送電線の検出・分断のための航空画像データセット
- Authors: Rabab Abdelfattah, Xiaofeng Wang, and Song Wang
- Abstract要約: 航空画像からの送信塔(TT)と送電線(PL)の正確な検出とセグメンテーションは、電力グリッドの安全性と低高度UAVの安全性を守る上で重要な役割を果たしている。
本稿では,3,840$times$2,160ピクセルの解像度を持つ1,100画像からなるTT/PL空中画像(TTPLA)データセットを新たに収集・リリースする。
我々はTTPLAで画像の収集、注釈付け、ラベル付けを行う新しいポリシーを開発した。
- 参考スコア(独自算出の注目度): 13.795614216966696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate detection and segmentation of transmission towers~(TTs) and power
lines~(PLs) from aerial images plays a key role in protecting power-grid
security and low-altitude UAV safety. Meanwhile, aerial images of TTs and PLs
pose a number of new challenges to the computer vision researchers who work on
object detection and segmentation -- PLs are long and thin, and may show
similar color as the background; TTs can be of various shapes and most likely
made up of line structures of various sparsity; The background scene, lighting,
and object sizes can vary significantly from one image to another. In this
paper we collect and release a new TT/PL Aerial-image (TTPLA) dataset,
consisting of 1,100 images with the resolution of 3,840$\times$2,160 pixels, as
well as manually labeled 8,987 instances of TTs and PLs. We develop novel
policies for collecting, annotating, and labeling the images in TTPLA.
Different from other relevant datasets, TTPLA supports evaluation of instance
segmentation, besides detection and semantic segmentation. To build a baseline
for detection and segmentation tasks on TTPLA, we report the performance of
several state-of-the-art deep learning models on our dataset. TTPLA dataset is
publicly available at https://github.com/r3ab/ttpla_dataset
- Abstract(参考訳): 航空画像からの送信塔〜(TT)および送電線〜(PL)の正確な検出とセグメンテーションは、電力グリッドの安全と低高度UAVの安全性を保護する上で重要な役割を果たしている。
一方、TTとPLの空中画像は、オブジェクトの検出とセグメンテーションに取り組んでいるコンピュータビジョン研究者に、多くの新しい課題をもたらす -- PLは長くて薄く、背景と類似した色を示す可能性がある。
本稿では,3,840$\times$2,160ピクセルの解像度を持つ1,100の画像と,TTとPLの8,987インスタンスを手動でラベル付けしたTT/PL Aerial-image(TTPLA)データセットを収集,リリースする。
我々はTTPLAで画像の収集、注釈付け、ラベル付けを行う新しいポリシーを開発した。
他の関連するデータセットとは異なり、TTPLAは検出とセマンティックセグメンテーションに加えて、インスタンスセグメンテーションの評価をサポートする。
TTPLAにおける検出・セグメント化タスクのベースラインを構築するために,我々のデータセット上での最先端ディープラーニングモデルの性能について報告する。
TTPLAデータセットはhttps://github.com/r3ab/ttpla_datasetで公開されている。
関連論文リスト
- In-Context LoRA for Diffusion Transformers [49.288489286276146]
テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。
我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。
我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
論文 参考訳(メタデータ) (2024-10-31T09:45:00Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Learning light field synthesis with Multi-Plane Images: scene encoding
as a recurrent segmentation task [30.058283056074426]
本稿では、入力ビューのスパースセットを多面画像(MPI)に変換することで、大規模なベースライン光場からのビュー合成の問題に対処する。
利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。
我々のモデルは、RGB層を推定することを学ぶのではなく、MPIアルファ層内のシーン幾何学を符号化するだけであり、それはセグメンテーションタスクに帰着する。
論文 参考訳(メタデータ) (2020-02-12T14:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。