論文の概要: Fine-tune vision foundation model for crack segmentation in civil
infrastructures
- arxiv url: http://arxiv.org/abs/2312.04233v1
- Date: Thu, 7 Dec 2023 11:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:05:04.880247
- Title: Fine-tune vision foundation model for crack segmentation in civil
infrastructures
- Title(参考訳): 土木構造物におけるき裂分断の微視的基礎モデル
- Authors: Kang Ge and Chen Wang and Yutao Guo
- Abstract要約: 2人。
セグメンテーションにおける基礎モデルを微調整するために、効率的な微調整法、アダプタおよび低ランク適応が採用されている。
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件において、顕著な優位性を示す。
- 参考スコア(独自算出の注目度): 3.571185635085448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models have become the mainstream method in the field
of deep learning, while in civil engineering, the scale of AI models is
strictly limited. In this work, vision foundation model is introduced for crack
segmentation. Two Parameter-efficient fine-tuning methods, adapter and low-rank
adaptation, are adopted to fine-tune the foundation model in the field of
semantic segmentation: Segment Anything Model (SAM). The fine-tuned model
CrackSAM is much larger than all the existing crack segmentation models, but
shows excellent performance. To test the zero-shot performance of the proposed
method, two unique datasets related to road and exterior wall cracks are
collected, annotated and open-sourced, in total 810 images. Comparative
experiments are conducted with twelve mature semantic segmentation models. On
datasets with artificial noise and previously unseen datasets, the performance
of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits
remarkable superiority, particularly in challenging conditions such as dim
lighting, shadows, road markings, construction joints, and other interference
factors. Such cross-scenario results demonstrate the outstanding zero-shot
capability of foundation models, and provide new ideas for the development of
vision models in civil engineering.
- Abstract(参考訳): 大規模基盤モデルはディープラーニングの分野で主流の手法となっているが、土木工学ではAIモデルの規模は厳しく制限されている。
本研究では, ひび割れ分断のための視覚基礎モデルを提案する。
セマンティックセグメンテーションの分野で基礎モデルを微調整するために,2つのパラメータ効率の良い微調整手法,アダプタと低ランク適応が採用された。
微調整されたモデルcracksamは、既存の全てのクラックセグメンテーションモデルよりもはるかに大きいが、優れた性能を示している。
提案手法のゼロショット性能をテストするために,道路および外壁のひび割れに関連する2つのユニークなデータセットを合計810画像にアノテートし,オープンソース化した。
12の成熟したセマンティクスセグメンテーションモデルを用いて比較実験を行った。
人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件において、顕著な優位性を示す。
このようなクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデル開発のための新しいアイデアを提供する。
関連論文リスト
- ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [55.28436972267793]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。