論文の概要: TL-CLIP: A Power-specific Multimodal Pre-trained Visual Foundation Model for Transmission Line Defect Recognition
- arxiv url: http://arxiv.org/abs/2411.11370v1
- Date: Mon, 18 Nov 2024 08:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:32:59.118772
- Title: TL-CLIP: A Power-specific Multimodal Pre-trained Visual Foundation Model for Transmission Line Defect Recognition
- Title(参考訳): TL-CLIP:伝送線路欠陥認識のためのパワー固有多モード事前学習ビジュアルファンデーションモデル
- Authors: Ke Zhang, Zhaoye Zheng, Yurong Guo, Jiacun Wang, Jiyuan Yang, Yangjie Xiao,
- Abstract要約: 伝送線路欠陥認識のための2段階の伝送線路指向コントラスト言語画像事前学習(TL-CLIP)フレームワークを提案する。
事前学習プロセスでは、パワー関連セマンティック知識のモデリングを改善するために、2つのパワー特化事前学習タスクを補助する、新しいパワー特化マルチモーダルアルゴリズムを採用している。
実験により,本手法は,分類タスクと検出タスクの両方において,伝送線路欠陥認識の性能を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 3.361647807059187
- License:
- Abstract: Transmission line defect recognition models have traditionally used general pre-trained weights as the initial basis for their training. These models often suffer weak generalization capability due to the lack of domain knowledge in the pre-training dataset. To address this issue, we propose a two-stage transmission-line-oriented contrastive language-image pre-training (TL-CLIP) framework, which lays a more effective foundation for transmission line defect recognition. The pre-training process employs a novel power-specific multimodal algorithm assisted with two power-specific pre-training tasks for better modeling the power-related semantic knowledge contained in the inspection data. To fine-tune the pre-trained model, we develop a transfer learning strategy, namely fine-tuning with pre-training objective (FTP), to alleviate the overfitting problem caused by limited inspection data. Experimental results demonstrate that the proposed method significantly improves the performance of transmission line defect recognition in both classification and detection tasks, indicating clear advantages over traditional pre-trained models in the scene of transmission line inspection.
- Abstract(参考訳): 送電線欠陥認識モデルは、伝統的に訓練の初歩として一般的な事前訓練重量を用いてきた。
これらのモデルは、事前学習データセットにおけるドメイン知識の欠如により、弱い一般化能力に悩まされることが多い。
この問題に対処するために,伝送線路欠陥認識のためのより効果的な基盤となる,2段階の伝送線路指向コントラスト型言語画像事前学習(TL-CLIP)フレームワークを提案する。
事前学習プロセスでは、検査データに含まれるパワー関連セマンティック知識をより良くモデル化するために、2つのパワー特化事前訓練タスクを補助する、新しいパワー特化マルチモーダルアルゴリズムを採用している。
事前学習モデルの微調整を行うため,限られた検査データによって生じる過度な問題を軽減するために,前訓練対象(FTP)による微調整を行うトランスファーラーニング戦略を開発した。
実験結果から,提案手法は,伝送線路検査の現場における従来の訓練済みモデルに対して,分類タスクと検出タスクの両方において,伝送線路欠陥認識の性能を著しく向上させることが示された。
関連論文リスト
- Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Novel Saliency Analysis for the Forward Forward Algorithm [0.0]
ニューラルネットワークトレーニングにフォワードフォワードアルゴリズムを導入する。
この方法は、2つのフォワードパスを実際のデータで実行し、正の強化を促進する。
従来のサリエンシ手法に固有の制約を克服するため,フォワードフォワードフレームワークに特化してベスポークサリエンシアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-18T17:21:59Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Self-Supervised Dual Contouring [30.9409064656302]
本稿ではニューラルデュアルコンチューリングメッシュフレームワークのための自己教師型トレーニングスキームを提案する。
生成メッシュ間の距離の整合性を促進する2つの新しい自己教師付き損失関数を用いる。
単視点再構成作業における自己監督的損失によりメッシュ性能が向上することが実証された。
論文 参考訳(メタデータ) (2024-05-28T12:44:28Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。