論文の概要: SAM-based instance segmentation models for the automation of structural
damage detection
- arxiv url: http://arxiv.org/abs/2401.15266v2
- Date: Tue, 30 Jan 2024 14:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 11:49:56.072249
- Title: SAM-based instance segmentation models for the automation of structural
damage detection
- Title(参考訳): 構造損傷検出自動化のためのsam型インスタンスセグメンテーションモデル
- Authors: Zehao Ye, Lucy Lovell, Asaad Faramarzi and Jelena Ninic
- Abstract要約: M1300と命名された1,300の注釈付き画像(640ピクセル×640ピクセル)で、レンガ、壊れたレンガ、ひび割れをカバーしている。
我々は、最新の大規模モデル、プロンプトベースのSegment Anything Model(SAM)など、ベンチマークのためのいくつかの主要なアルゴリズムをテストする。
本稿では,SAM実行を自動化する2つの新しい手法を提案する。第1の方法はプロンプトエンコーダを捨て,SAMエンコーダを他のデコーダに接続することであり,第2の方法は学習可能な自己生成プロンプトを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating visual inspection for capturing defects based on civil structures
appearance is crucial due to its currently labour-intensive and time-consuming
nature. An important aspect of automated inspection is image acquisition, which
is rapid and cost-effective considering the pervasive developments in both
software and hardware computing in recent years. Previous studies largely
focused on concrete and asphalt, with less attention to masonry cracks. The
latter also lacks publicly available datasets. In this paper, we first present
a corresponding data set for instance segmentation with 1,300 annotated images
(640 pixels x 640 pixels), named as MCrack1300, covering bricks, broken bricks,
and cracks. We then test several leading algorithms for benchmarking, including
the latest large-scale model, the prompt-based Segment Anything Model (SAM). We
fine-tune the encoder using Low-Rank Adaptation (LoRA) and proposed two novel
methods for automation of SAM execution. The first method involves abandoning
the prompt encoder and connecting the SAM encoder to other decoders, while the
second method introduces a learnable self-generating prompter. In order to
ensure the seamless integration of the two proposed methods with SAM encoder
section, we redesign the feature extractor. Both proposed methods exceed
state-of-the-art performance, surpassing the best benchmark by approximately 3%
for all classes and around 6% for cracks specifically. Based on successful
detection, we propose a method based on a monocular camera and the Hough Line
Transform to automatically transform images into orthographic projection maps.
By incorporating known real sizes of brick units, we accurately estimate crack
dimensions, with the results differing by less than 10% from those obtained by
laser scanning. Overall, we address important research gaps in automated
masonry crack detection and size estimation.
- Abstract(参考訳): 土木構造物の外観に基づく視覚検査の自動化は、現在、労働集約的かつ時間のかかる性質のために重要である。
自動検査の重要な側面は画像取得であり、近年のソフトウェアとハードウェアの両コンピューティングにおける広範な開発を考えると、迅速かつ費用対効果が高い。
以前の研究では、主にコンクリートとアスファルトに焦点が当てられ、石工の亀裂への注意は少なかった。
後者は、公開データセットも欠落している。
本稿では,まず,1,300点の注釈付き画像(640ピクセル×640ピクセル)をMCrack1300と命名し,ブロック,破砕レンガ,ひび割れをカバーしたサンプルセグメンテーション用データセットを提示する。
次に、最新の大規模モデルであるSAM(Segment Anything Model)など、ベンチマークのための主要なアルゴリズムをいくつかテストする。
ローランド適応(LoRA)を用いてエンコーダを微調整し,SAM実行を自動化する2つの新しい手法を提案する。
第1の方法はプロンプトエンコーダを捨て、SAMエンコーダを他のデコーダに接続することであり、第2の方法は学習可能な自己生成プロンプトを導入する。
samエンコーダセクションで提案された2つのメソッドをシームレスに統合するために,特徴抽出器を再設計した。
どちらの手法も最先端の性能を超え、すべてのクラスで3%、特にクラックでは6%のベンチマークを上回りました。
そこで本研究では,単眼カメラとハフライン変換を併用して,画像を自動的に直交投影マップに変換する手法を提案する。
れんが単位の既知実サイズを組み込むことにより, き裂寸法を正確に推定し, レーザ走査による結果と10%未満の精度で評価した。
全体として,自動き裂検出とサイズ推定における重要な研究ギャップに対処する。
関連論文リスト
- Unsupervised Fault Detection using SAM with a Moving Window Approach [0.0]
本稿では、SAM(High End Segment Anything Model)と移動ウィンドウアプローチを用いた教師なし手法を提案する。
我々は、微調整やラベル付きデータを必要とせずに、これらの課題を克服することを目指している。
論文 参考訳(メタデータ) (2024-07-08T18:12:29Z) - A Multispectral Automated Transfer Technique (MATT) for machine-driven
image labeling utilizing the Segment Anything Model (SAM) [0.0]
本稿では,Multispectral Automated Transfer Technique (MATT) と呼ぶ手法について概説する。
RGB画像からSAMセグメンテーションマスクを変換することで、高精度で効率よくマルチスペクトル画像のセグメンテーションとラベルを自動で行うことができる。
本研究は,多スペクトル物体検出モデルを高速に分割,ラベル付け,訓練するための新しいオープンソース手法を提供することにより,多スペクトル物体検出の研究に大きく貢献する。
論文 参考訳(メタデータ) (2024-02-18T01:01:13Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Cut and Learn for Unsupervised Object Detection and Instance
Segmentation [65.43627672225624]
Cut-and-LeaRn(CutLER)は、教師なしオブジェクトの検出とセグメンテーションモデルをトレーニングするためのシンプルなアプローチである。
CutLERはゼロショット非監視検出器であり、11のベンチマークでAP50を2.7倍以上改善している。
論文 参考訳(メタデータ) (2023-01-26T18:57:13Z) - Self-Supervised Clustering on Image-Subtracted Data with Deep-Embedded
Self-Organizing Map [0.0]
自己教師型機械学習モデルであるdeep-embedded self-organizing map (DESOM)を実ボガス分類問題に適用する。
我々は異なるモデルトレーニング手法を実証し、最良のDESOM分類器は検出率6.6%、偽陽性率1.5%を示した。
論文 参考訳(メタデータ) (2022-09-14T02:37:06Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - An Attention-based Method for Action Unit Detection at the 3rd ABAW
Competition [6.229820412732652]
本稿では,2022年の第3回ABAW(Affective Behavior Analysis in-the-Wild)コンテストへの参加について述べる。
映像中の顔の動きを検知する手法を提案する。
ABAWチャレンジ検証セットのマクロF1スコアは0.48であり,ベースラインモデルでは0.39であった。
論文 参考訳(メタデータ) (2022-03-23T14:07:39Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。