論文の概要: Fine-tune vision foundation model for crack segmentation in civil
infrastructures
- arxiv url: http://arxiv.org/abs/2312.04233v1
- Date: Thu, 7 Dec 2023 11:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:05:04.880247
- Title: Fine-tune vision foundation model for crack segmentation in civil
infrastructures
- Title(参考訳): 土木構造物におけるき裂分断の微視的基礎モデル
- Authors: Kang Ge and Chen Wang and Yutao Guo
- Abstract要約: 2人。
セグメンテーションにおける基礎モデルを微調整するために、効率的な微調整法、アダプタおよび低ランク適応が採用されている。
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件において、顕著な優位性を示す。
- 参考スコア(独自算出の注目度): 3.571185635085448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models have become the mainstream method in the field
of deep learning, while in civil engineering, the scale of AI models is
strictly limited. In this work, vision foundation model is introduced for crack
segmentation. Two Parameter-efficient fine-tuning methods, adapter and low-rank
adaptation, are adopted to fine-tune the foundation model in the field of
semantic segmentation: Segment Anything Model (SAM). The fine-tuned model
CrackSAM is much larger than all the existing crack segmentation models, but
shows excellent performance. To test the zero-shot performance of the proposed
method, two unique datasets related to road and exterior wall cracks are
collected, annotated and open-sourced, in total 810 images. Comparative
experiments are conducted with twelve mature semantic segmentation models. On
datasets with artificial noise and previously unseen datasets, the performance
of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits
remarkable superiority, particularly in challenging conditions such as dim
lighting, shadows, road markings, construction joints, and other interference
factors. Such cross-scenario results demonstrate the outstanding zero-shot
capability of foundation models, and provide new ideas for the development of
vision models in civil engineering.
- Abstract(参考訳): 大規模基盤モデルはディープラーニングの分野で主流の手法となっているが、土木工学ではAIモデルの規模は厳しく制限されている。
本研究では, ひび割れ分断のための視覚基礎モデルを提案する。
セマンティックセグメンテーションの分野で基礎モデルを微調整するために,2つのパラメータ効率の良い微調整手法,アダプタと低ランク適応が採用された。
微調整されたモデルcracksamは、既存の全てのクラックセグメンテーションモデルよりもはるかに大きいが、優れた性能を示している。
提案手法のゼロショット性能をテストするために,道路および外壁のひび割れに関連する2つのユニークなデータセットを合計810画像にアノテートし,オープンソース化した。
12の成熟したセマンティクスセグメンテーションモデルを用いて比較実験を行った。
人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件において、顕著な優位性を示す。
このようなクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデル開発のための新しいアイデアを提供する。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models [41.76935689355034]
識別的および生成的事前学習により、強力な一般化能力を持つ幾何推定モデルが得られた。
幾何推定モデルの評価と解析のための,公平で強力なベースラインを構築した。
多様なシーンと高品質なアノテーションを用いた幾何推定タスクにおいて,より困難なベンチマークを用いて,単色幾何推定器の評価を行った。
論文 参考訳(メタデータ) (2024-06-18T14:44:12Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。