論文の概要: Transmission Line Defect Detection Based on UAV Patrol Images and Vision-language Pretraining
- arxiv url: http://arxiv.org/abs/2411.11370v2
- Date: Sun, 11 May 2025 13:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:12.589244
- Title: Transmission Line Defect Detection Based on UAV Patrol Images and Vision-language Pretraining
- Title(参考訳): UAVパトロール画像と視覚言語事前学習に基づく伝送線路欠陥検出
- Authors: Ke Zhang, Zhaoye Zheng, Yurong Guo, Jiacun Wang, Jiyuan Yang, Yangjie Xiao,
- Abstract要約: 無人航空機(UAV)のパトロール検査は、送電線監視における主要なアプローチとして浮上している。
提案手法は,複数モーダル情報を共同で利用することにより,欠陥検出精度を大幅に向上する。
- 参考スコア(独自算出の注目度): 3.361647807059187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicle (UAV) patrol inspection has emerged as a predominant approach in transmission line monitoring owing to its cost-effectiveness. Detecting defects in transmission lines is a critical task during UAV patrol inspection. However, due to imaging distance and shooting angles, UAV patrol images often suffer from insufficient defect-related visual information, which has an adverse effect on detection accuracy. In this article, we propose a novel method for detecting defects in UAV patrol images, which is based on vision-language pretraining for transmission line (VLP-TL) and a progressive transfer strategy (PTS). Specifically, VLP-TL contains two novel pretraining tasks tailored for the transmission line scenario, aimimg at pretraining an image encoder with abundant knowledge acquired from both visual and linguistic information. Transferring the pretrained image encoder to the defect detector as its backbone can effectively alleviate the insufficient visual information problem. In addition, the PTS further improves transfer performance by progressively bridging the gap between pretraining and downstream defection detection. Experimental results demonstrate that the proposed method significantly improves defect detection accuracy by jointly utilizing multimodal information, overcoming the limitations of insufficient defect-related visual information provided by UAV patrol images.
- Abstract(参考訳): 無人航空機(UAV)のパトロール検査は、その費用対効果のため、送電線監視において主要なアプローチとして浮上している。
送電線の欠陥を検出することは、UAVパトロール検査において重要な課題である。
しかし、撮影距離や撮影角度のため、UAVパトロール画像は欠陥関連視覚情報不足に悩まされることが多く、検出精度に悪影響を及ぼす。
本稿では,トランスミッションライン (VLP-TL) とプログレッシブトランスファー戦略 (PTS) に基づく,UAVパトロール画像の欠陥検出手法を提案する。
具体的には、VLP-TLは、トランスミッションラインシナリオに適した2つの新しい事前訓練タスク、視覚情報と言語情報の両方から得られる豊富な知識を持つ画像エンコーダを事前訓練するaimimgを含む。
予め訓練した画像エンコーダを欠陥検出器にバックボーンとして転送することで、視覚情報の不十分な問題を効果的に軽減することができる。
さらに、PTSは、事前学習と下流欠陥検出のギャップを段階的に埋めることにより、転送性能をさらに向上する。
実験結果から,UAVパトロール画像による欠陥関連視覚情報の不足を克服し,複数モーダル情報を共同利用することにより,欠陥検出精度を著しく向上することが示された。
関連論文リスト
- Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Novel Saliency Analysis for the Forward Forward Algorithm [0.0]
ニューラルネットワークトレーニングにフォワードフォワードアルゴリズムを導入する。
この方法は、2つのフォワードパスを実際のデータで実行し、正の強化を促進する。
従来のサリエンシ手法に固有の制約を克服するため,フォワードフォワードフレームワークに特化してベスポークサリエンシアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-18T17:21:59Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Self-Supervised Dual Contouring [30.9409064656302]
本稿ではニューラルデュアルコンチューリングメッシュフレームワークのための自己教師型トレーニングスキームを提案する。
生成メッシュ間の距離の整合性を促進する2つの新しい自己教師付き損失関数を用いる。
単視点再構成作業における自己監督的損失によりメッシュ性能が向上することが実証された。
論文 参考訳(メタデータ) (2024-05-28T12:44:28Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。