Fugu-MT 論文翻訳(概要): Fine-tune vision foundation model for crack segmentation in civil infrastructures

論文の概要: Fine-tune vision foundation model for crack segmentation in civil infrastructures

arxiv url: http://arxiv.org/abs/2312.04233v1
Date: Thu, 7 Dec 2023 11:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 15:05:04.880247
Title: Fine-tune vision foundation model for crack segmentation in civil infrastructures
Title（参考訳）: 土木構造物におけるき裂分断の微視的基礎モデル
Authors: Kang Ge and Chen Wang and Yutao Guo
Abstract要約: 2人。セグメンテーションにおける基礎モデルを微調整するために、効率的な微調整法、アダプタおよび低ランク適応が採用されている。 CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件において、顕著な優位性を示す。
参考スコア（独自算出の注目度）: 3.571185635085448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale foundation models have become the mainstream method in the field of deep learning, while in civil engineering, the scale of AI models is strictly limited. In this work, vision foundation model is introduced for crack segmentation. Two Parameter-efficient fine-tuning methods, adapter and low-rank adaptation, are adopted to fine-tune the foundation model in the field of semantic segmentation: Segment Anything Model (SAM). The fine-tuned model CrackSAM is much larger than all the existing crack segmentation models, but shows excellent performance. To test the zero-shot performance of the proposed method, two unique datasets related to road and exterior wall cracks are collected, annotated and open-sourced, in total 810 images. Comparative experiments are conducted with twelve mature semantic segmentation models. On datasets with artificial noise and previously unseen datasets, the performance of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits remarkable superiority, particularly in challenging conditions such as dim lighting, shadows, road markings, construction joints, and other interference factors. Such cross-scenario results demonstrate the outstanding zero-shot capability of foundation models, and provide new ideas for the development of vision models in civil engineering.
Abstract（参考訳）: 大規模基盤モデルはディープラーニングの分野で主流の手法となっているが、土木工学ではAIモデルの規模は厳しく制限されている。本研究では, ひび割れ分断のための視覚基礎モデルを提案する。セマンティックセグメンテーションの分野で基礎モデルを微調整するために,2つのパラメータ効率の良い微調整手法,アダプタと低ランク適応が採用された。微調整されたモデルcracksamは、既存の全てのクラックセグメンテーションモデルよりもはるかに大きいが、優れた性能を示している。提案手法のゼロショット性能をテストするために,道路および外壁のひび割れに関連する2つのユニークなデータセットを合計810画像にアノテートし,オープンソース化した。 12の成熟したセマンティクスセグメンテーションモデルを用いて比較実験を行った。人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。 CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件において、顕著な優位性を示す。このようなクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデル開発のための新しいアイデアを提供する。

関連論文リスト

Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling [25.705179111920806]
この研究は、拡散モデルが高品質な表現を自己指導的に学習する上で優れている理由と時期に関する問題に対処する。我々は低次元データモデルと後続推定に基づく数学的枠組みを開発し、画像生成の最終段階に近い生成と表現品質の基本的なトレードオフを明らかにする。これらの知見に基づいて,ノイズレベルをまたいだ特徴を集約するアンサンブル法を提案し,ラベル雑音下でのクリーンな性能とロバスト性の両方を著しく改善する。
論文参考訳（メタデータ） (2025-02-09T01:58:28Z)
SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文参考訳（メタデータ） (2024-12-02T12:08:40Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.298235969992877]
単一細胞における摂動応答モデリングのための包括的フレームワークを提案する。私たちのアプローチには、モジュラーでユーザフレンドリなモデル開発と評価プラットフォームが含まれています。モード崩壊など、広く使われているモデルの限界を強調します。
論文参考訳（メタデータ） (2024-08-20T07:40:20Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models [41.76935689355034]
識別的および生成的事前学習により、強力な一般化能力を持つ幾何推定モデルが得られた。幾何推定モデルの評価と解析のための,公平で強力なベースラインを構築した。多様なシーンと高品質なアノテーションを用いた幾何推定タスクにおいて,より困難なベンチマークを用いて,単色幾何推定器の評価を行った。
論文参考訳（メタデータ） (2024-06-18T14:44:12Z)
ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文参考訳（メタデータ） (2024-05-01T00:13:05Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文参考訳（メタデータ） (2024-01-25T18:57:36Z)
Segment Anything Model Can Not Segment Anything: Assessing AI Foundation Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文参考訳（メタデータ） (2024-01-16T19:10:09Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。