論文の概要: PicT: A Slim Weakly Supervised Vision Transformer for Pavement Distress
Classification
- arxiv url: http://arxiv.org/abs/2209.10074v1
- Date: Wed, 21 Sep 2022 02:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:16:50.209173
- Title: PicT: A Slim Weakly Supervised Vision Transformer for Pavement Distress
Classification
- Title(参考訳): PicT: 舗装ディストレス分類のためのスリムな目視変換器
- Authors: Wenhao Tang and Sheng Huang and Xiaoxian Zhang and Luwen Huangfu
- Abstract要約: 舗装障害分類のためのtextbfPavement textbf Image textbfClassification textbfPicT という視覚変換器を提案する。
textbfPicTは2番目にパフォーマンスの高いモデルよりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 10.826472503315912
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic pavement distress classification facilitates improving the
efficiency of pavement maintenance and reducing the cost of labor and
resources. A recently influential branch of this task divides the pavement
image into patches and addresses these issues from the perspective of
multi-instance learning. However, these methods neglect the correlation between
patches and suffer from a low efficiency in the model optimization and
inference. Meanwhile, Swin Transformer is able to address both of these issues
with its unique strengths. Built upon Swin Transformer, we present a vision
Transformer named \textbf{P}avement \textbf{I}mage \textbf{C}lassification
\textbf{T}ransformer (\textbf{PicT}) for pavement distress classification. In
order to better exploit the discriminative information of pavement images at
the patch level, the \textit{Patch Labeling Teacher} is proposed to leverage a
teacher model to dynamically generate pseudo labels of patches from image
labels during each iteration, and guides the model to learn the discriminative
features of patches. The broad classification head of Swin Transformer may
dilute the discriminative features of distressed patches in the feature
aggregation step due to the small distressed area ratio of the pavement image.
To overcome this drawback, we present a \textit{Patch Refiner} to cluster
patches into different groups and only select the highest distress-risk group
to yield a slim head for the final image classification. We evaluate our method
on CQU-BPDD. Extensive results show that \textbf{PicT} outperforms the
second-best performed model by a large margin of $+2.4\%$ in P@R on detection
task, $+3.9\%$ in $F1$ on recognition task, and 1.8x throughput, while enjoying
7x faster training speed using the same computing resources. Our codes and
models have been released on
\href{https://github.com/DearCaat/PicT}{https://github.com/DearCaat/PicT}.
- Abstract(参考訳): 自動舗装救難分類は、舗装維持の効率を改善し、労働と資源のコストを低減させる。
このタスクの最近の影響力のあるブランチは、舗装イメージをパッチに分割し、マルチインスタンス学習の観点からこれらの問題に対処する。
しかし、これらの手法はパッチ間の相関を無視し、モデルの最適化と推論の効率が低下する。
一方、Swin Transformerはこれらの問題をそれぞれ独自の長所で解決することができる。
Swin Transformer 上に構築した視覚変換器である \textbf{P}avement \textbf{I}mage \textbf{C}lassification \textbf{T}ransformer (\textbf{PicT}) を用いて,舗装難読分類を行う。
パッチレベルでの舗装画像の識別情報をよりよく活用するために, 教師モデルを利用して各イテレーション中に画像ラベルからパッチの擬似ラベルを動的に生成し, パッチの識別的特徴を学習するよう指導する。
Swin Transformerの広い分類ヘッドは、舗装画像の縮小された面積比により、特徴集約段階における苦いパッチの識別特性を希釈することができる。
この欠点を克服するために、異なるグループにパッチをクラスタ化するための \textit{patch refiner} を提示し、最上位のディストレスリスクグループのみを選択し、最終的な画像分類にスリムなヘッドを与える。
本手法をcqu-bpddで評価する。
広範な結果から、 \textbf{pict} は、検出タスクで p@r で$+2.4\%$、認識タスクで$f1$で$3.9\%、スループットが 1.8倍という大きなマージンで、同じ計算リソースで 7倍のトレーニング速度を享受できる。
我々のコードとモデルは \href{https://github.com/DearCaat/PicT}{https://github.com/DearCaat/PicT} でリリースされた。
関連論文リスト
- Semi-supervised 3D Object Detection with PatchTeacher and PillarMix [71.4908268136439]
現在の半教師付き3Dオブジェクト検出法では、教師が学生に擬似ラベルを生成するのが一般的である。
学生に高品質な擬似ラベルを提供するために,部分的なシーン3Dオブジェクト検出に焦点を当てたPatchTeacherを提案する。
本稿では,PatchTeacherの性能向上のために,Patch Normalizer,Quadrant Align,Fovea Selectionの3つの重要なテクニックを紹介する。
論文 参考訳(メタデータ) (2024-07-13T06:58:49Z) - Learning to Rank Patches for Unbiased Image Redundancy Reduction [80.93989115541966]
画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
本稿では,Learning to Rank Patchesと呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T13:12:41Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches [8.812837829361923]
クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
論文 参考訳(メタデータ) (2023-05-06T03:47:20Z) - PATS: Patch Area Transportation with Subdivision for Local Feature
Matching [78.67559513308787]
局所特徴マッチングは、一対のイメージ間のスパース対応を確立することを目的としている。
この問題に対処するために,PATS(Patch Area Transportation with Subdivision)を提案する。
PATSは、マッチング精度とカバレッジの両方を改善し、下流タスクにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-14T08:28:36Z) - Weakly Supervised Patch Label Inference Networks for Efficient Pavement
Distress Detection and Recognition in the Wild [14.16549562799135]
Weakly Supervised Patch Label Inference Networks (WSPLIN) を提案する。
WSPLINは、完全に教師付き舗装画像分類問題を弱教師付き舗装画像分類問題に変換する。
本手法は, 大規模舗装救難データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-03-31T04:01:02Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - An Iteratively Optimized Patch Label Inference Network for Automatic
Pavement Distress Detection [12.89160593375335]
本稿では, 反復最適化型パッチラベル推論ネットワーク (IOPLIN) という新しいディープラーニングフレームワークを提案する。
IOPLINは、期待最大化インスパイアされたパッチラベル蒸留戦略を通じて、イメージラベルのみで反復的にトレーニングすることができる。
解像度の異なる画像を扱うことができ、特に高解像度の画像に対して十分な画像情報を利用することができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。