論文の概要: Fine-tuning vision foundation model for crack segmentation in civil
infrastructures
- arxiv url: http://arxiv.org/abs/2312.04233v2
- Date: Fri, 15 Dec 2023 05:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:24:45.996883
- Title: Fine-tuning vision foundation model for crack segmentation in civil
infrastructures
- Title(参考訳): 土木インフラにおけるき裂分割のための微調整ビジョン基礎モデル
- Authors: Kang Ge and Chen Wang and Yutao Guo and Yansong Tang and Zhenzhong Hu
- Abstract要約: セグメンテーションにおける基礎モデルを微調整するために、微調整法が採用される:セグメンション・アシング・モデル(SAM)
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件下で、顕著な優位性を示す。
これらのクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデルを開発するための新しいアイデアを提供する。
- 参考スコア(独自算出の注目度): 15.610551298900225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models have become the mainstream deep learning
method, while in civil engineering, the scale of AI models is strictly limited.
In this work, a vision foundation model is introduced for crack segmentation.
Two parameter-efficient fine-tuning methods, adapter and low-rank adaptation,
are adopted to fine-tune the foundation model in semantic segmentation: the
Segment Anything Model (SAM). The fine-tuned CrackSAM model is much larger than
all the existing crack segmentation models but shows excellent performance. To
test the zero-shot performance of the proposed method, two unique datasets
related to road and exterior wall cracks are collected, annotated and
open-sourced, for a total of 810 images. Comparative experiments are conducted
with twelve mature semantic segmentation models. On datasets with artificial
noise and previously unseen datasets, the performance of CrackSAM far exceeds
that of all state-of-the-art models. CrackSAM exhibits remarkable superiority,
particularly under challenging conditions such as dim lighting, shadows, road
markings, construction joints, and other interference factors. These
cross-scenario results demonstrate the outstanding zero-shot capability of
foundation models and provide new ideas for developing vision models in civil
engineering.
- Abstract(参考訳): 大規模な基礎モデルが主流となる一方で、土木工学ではAIモデルの規模は厳しく制限されている。
本稿では,クラックセグメント化のためのビジョン基盤モデルを提案する。
セグメンテーションにおける基礎モデルを微調整するために,2つのパラメータ効率の高い微調整手法,アダプタと低ランク適応が採用された。
微調整されたCrackSAMモデルは、既存のすべてのクラックセグメンテーションモデルよりもはるかに大きいが、優れた性能を示している。
提案手法のゼロショット性能をテストするため,道路および外壁の亀裂に関する2つのユニークなデータセットを,合計810枚の画像に対して収集,注釈付け,オープンソース化した。
12の成熟したセマンティクスセグメンテーションモデルを用いて比較実験を行った。
人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件下で、顕著な優位性を示す。
これらのクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデルを開発するための新しいアイデアを提供する。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models [41.76935689355034]
識別的および生成的事前学習により、強力な一般化能力を持つ幾何推定モデルが得られた。
幾何推定モデルの評価と解析のための,公平で強力なベースラインを構築した。
多様なシーンと高品質なアノテーションを用いた幾何推定タスクにおいて,より困難なベンチマークを用いて,単色幾何推定器の評価を行った。
論文 参考訳(メタデータ) (2024-06-18T14:44:12Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。