論文の概要: Fine-tuning vision foundation model for crack segmentation in civil infrastructures
- arxiv url: http://arxiv.org/abs/2312.04233v3
- Date: Tue, 23 Apr 2024 08:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:35:42.453537
- Title: Fine-tuning vision foundation model for crack segmentation in civil infrastructures
- Title(参考訳): 土木構造物のひび割れセグメンテーションのための微調整ビジョン基礎モデル
- Authors: Kang Ge, Chen Wang, Yutao Guo, Yansong Tang, Zhenzhong Hu, Hongbing Chen,
- Abstract要約: セグメンテーションにおける基礎モデルを微調整するために、微調整法が採用される:セグメンション・アシング・モデル(SAM)
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件下で、顕著な優位性を示す。
これらのクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデルを開発するための新しいアイデアを提供する。
- 参考スコア(独自算出の注目度): 13.731957127190274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models have become the mainstream deep learning method, while in civil engineering, the scale of AI models is strictly limited. In this work, a vision foundation model is introduced for crack segmentation. Two parameter-efficient fine-tuning methods, adapter and low-rank adaptation, are adopted to fine-tune the foundation model in semantic segmentation: the Segment Anything Model (SAM). The fine-tuned CrackSAM shows excellent performance on different scenes and materials. To test the zero-shot performance of the proposed method, two unique datasets related to road and exterior wall cracks are collected, annotated and open-sourced, for a total of 810 images. Comparative experiments are conducted with twelve mature semantic segmentation models. On datasets with artificial noise and previously unseen datasets, the performance of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits remarkable superiority, particularly under challenging conditions such as dim lighting, shadows, road markings, construction joints, and other interference factors. These cross-scenario results demonstrate the outstanding zero-shot capability of foundation models and provide new ideas for developing vision models in civil engineering.
- Abstract(参考訳): 大規模な基礎モデルが主流となる一方で、土木工学ではAIモデルの規模は厳しく制限されている。
本研究では, ひび割れ分断のための視覚基礎モデルを提案する。
セグメンテーションにおける基礎モデルを微調整するために,2つのパラメータ効率の高い微調整法であるアダプタと低ランク適応を採用し,セグメンテーションモデル(SAM)を用いた。
微調整されたCrackSAMは、さまざまなシーンや素材で優れたパフォーマンスを示している。
提案手法のゼロショット性能をテストするため,道路および外壁の亀裂に関する2つのユニークなデータセットを,合計810枚の画像に対して収集,注釈付け,オープンソース化した。
12種類の成熟セマンティックセグメンテーションモデルを用いて比較実験を行った。
人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。
CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件下で、顕著な優位性を示す。
これらのクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデルを開発するための新しいアイデアを提供する。
関連論文リスト
- Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - LaCo: Large Language Model Pruning via Layer Collapse [63.973142426228016]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
後部モデル層が先行層に崩壊する,textitLayer Collapse (LaCo) と呼ばれる簡潔な層分割法を提案する。
実験の結果,25~30%の刈り取り率で平均タスク性能が80%以上維持されていることがわかった。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Conterfactual Generative Zero-Shot Semantic Segmentation [16.684570608930983]
一般的なゼロショットセマンティックセグメンテーション手法の1つは、生成モデルに基づいている。
本研究では,オリジナルのモデルにおいて,共同創設者を避けるための反事実的手法を検討する。
我々のモデルは、2つの実世界のデータセットのベースラインモデルと比較される。
論文 参考訳(メタデータ) (2021-06-11T13:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。