論文の概要: Cracks in the Foundation: A Civil Infrastructure Dataset to Challenge Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2605.18413v2
- Date: Tue, 19 May 2026 08:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.573922
- Title: Cracks in the Foundation: A Civil Infrastructure Dataset to Challenge Vision Foundation Models
- Title(参考訳): 財団のひび割れ:ビジョン・ファンデーション・モデルに挑戦するための土木インフラデータセット
- Authors: Nicola Farronato, Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Rizwan Ullah Khan, Michele Magno, Konrad Schindler, Cristiano Malossi, Florian Scheidegger,
- Abstract要約: CiF(Cracks in the Foundation)は、これまでで最大かつ最も詳細な土木インフラ(インスタンス)セグメンテーションデータセットである。
ファウンデーションモデル(FM)とビジョン言語モデル(VLM)の出現にもかかわらず、現在の視覚AIの盲点を露呈する。
我々の評価は、最新のゼロショットFMでさえ、現実世界のインフラに配備する際、重大な課題に直面していることを示している。
- 参考スコア(独自算出の注目度): 28.082428938187718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated structural health monitoring is essential to prevent catastrophic infrastructure failures. Precise, pixel-level defect segmentation is needed to accurately assess structural integrity, but progress in defect segmentation for civil infrastructures has been held back by an extreme scarcity of data, which requires costly expert annotation. The need for data is accentuated by algorithmic hurdles intrinsic to the problem, including center-bias and the need to rely more on shape when inspecting nearly textureless building materials. To remove the bottleneck, we introduce Cracks in the Foundation (CiF), the largest and most detailed civil infrastructure (instance) segmentation dataset to date, comprising $\approx$150,000 high-resolution images meticulously curated over five years in collaboration with civil engineering experts. With the help of this unprecedented data source, we expose a blind spot of current visual AI: despite the advent of promptable Foundation Models (FMs) and Vision Language Models (VLMs), and despite the impressive abilities of today's specialised segmentation models, it turns out that dense image understanding in the built environment is nowhere near solved. Our evaluations indicate that even the most recent zero-shot FMs face significant challenges when deployed on real-world infrastructure and even the performance of specialised models with domain-specific supervision plateaus at $\approx$25% mAP. CiF establishes inspection of civil infrastructure, an elementary and seemingly easy perceptual task, as an open challenge that reveals fundamental weaknesses of present-day models trained predominantly on internet images, literally and figuratively highlighting cracks in the current foundation model paradigm.
- Abstract(参考訳): 構造的健康モニタリングは、壊滅的なインフラストラクチャー障害を防ぐために不可欠である。
構造的整合性を正確に評価するにはピクセルレベルの欠陥セグメンテーションが必要であるが、土木インフラの欠陥セグメンテーションの進展は、膨大な量のデータ不足に支えられている。
データの必要性は、中心バイアスや、ほとんどテクスチャのない建築材料を検査する際の形状に依存する必要性など、この問題に固有のアルゴリズム上のハードルによって強調される。
このボトルネックを取り除くために、我々は、土木工学の専門家と5年間にわたって慎重にキュレートされた、$150,000の高解像度画像を含む、これまでで最大かつ最も詳細な土木インフラ(インスタンス)セグメンテーションデータセットであるCiF(Cracks in the Foundation)を紹介します。
ファウンデーションモデル(FM)とビジョン言語モデル(VLM)の出現にもかかわらず、今日の特別なセグメンテーションモデルの印象的な能力にもかかわらず、構築された環境における密集したイメージ理解がほとんど解決されていないことが分かりました。
我々の評価は、最新のゼロショットFMでさえ、現実世界のインフラに展開する際には重大な課題に直面し、ドメイン固有の監視プレートを持つ特別モデルの性能は、$\approx$25% mAPであることを示している。
CiFは、基本的で一見容易な知覚的タスクである土木インフラの検査を、インターネットイメージで主に訓練された今日のモデルの根本的な弱点を明らかにするオープンチャレンジとして確立している。
関連論文リスト
- Synergistic Perception and Generative Recomposition: A Multi-Agent Orchestration for Expert-Level Building Inspection [6.469960133115484]
ファサード欠陥検査は、構造的健康モニタリングと持続可能な都市維持に不可欠である。
textitFacadeFixerは、欠陥認識を独立した認識ではなく、協調的な推論タスクとして扱う。
textitFacadeFixerは、マルチタイプの欠陥干渉を処理するために、検出とセグメンテーションのための特別なエージェントを編成する。
textitFacadeFixerは最先端(SOTA)ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-03-20T17:17:22Z) - StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection [5.775681471953946]
StructDamageは、9つの表面タイプにまたがる約78,093枚の画像のキュレートされたコレクションである。
提案したデータセットは、分類タスクに適した包括的で汎用的なリソースを提供する。
論文 参考訳(メタデータ) (2026-03-11T07:17:19Z) - SoM-1K: A Thousand-Problem Benchmark Dataset for Strength of Materials [16.756001896133757]
材料強度の問題に関する基礎モデルを評価するための,最初の大規模マルチモーダルベンチマークデータセットであるSoM-1Kを紹介する。
この研究は、エンジニアリングAIのための厳格なベンチマークを確立し、より堅牢なマルチモーダル推論機能を開発するための重要なニーズを強調している。
論文 参考訳(メタデータ) (2025-09-25T12:28:22Z) - Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [96.1872246747684]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - REOBench: Benchmarking Robustness of Earth Observation Foundation Models [48.24281482353377]
REOBenchは、地球観測基盤モデルの堅牢性を評価するための最初の総合的なベンチマークである。
マスク付き画像モデリング、コントラスト学習、視覚言語事前学習パラダイムを用いて訓練された幅広いモデルの体系的評価を行う。
その結果, 既存の地球観測基盤モデルでは, 入力汚損に晒された場合, 顕著な性能劣化がみられた。
論文 参考訳(メタデータ) (2025-05-22T15:34:50Z) - Post-Hurricane Debris Segmentation Using Fine-Tuned Foundational Vision Models [18.008592164636664]
この研究は、Hulicanes Ian、Ida、Ikeの約1200個の手動の空中RGB画像からなるオープンソースデータセットを導入している。
人間のバイアスを緩和し、データ品質を向上させるため、複数のアノテータからのラベルを戦略的に集約し、視覚的なプロンプトエンジニアリングを採用する。
結果として得られた細調整されたモデルであるfCLIPSegは、ハリケーン・アイダのデータからデブリのない地域では事実上偽陽性のDiceスコアが0.70に達する。
論文 参考訳(メタデータ) (2025-04-17T00:08:50Z) - TopoFR: A Closer Look at Topology Alignment on Face Recognition [58.45515807380505]
PTSAと呼ばれるトポロジカル構造アライメント戦略とSDEという硬質試料マイニング戦略を利用する新しいFRモデルであるTopoFRを提案する。
PTSAは永続ホモロジーを用いて入力空間と潜在空間の位相構造を整列し、構造情報を効果的に保存し、FRモデルの一般化性能を向上させる。
一般的な顔のベンチマーク実験の結果は、最先端の手法よりもTopoFRの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T14:58:30Z) - Concrete Surface Crack Detection with Convolutional-based Deep Learning
Models [0.0]
き裂検出は、建物の構造的健康モニタリングと検査に重要である。
畳み込みニューラルネットワーク(CNN)は、ひび割れ検出のための有望なフレームワークとして登場した。
我々は、事前訓練されたディープラーニングアーキテクチャに微調整技術を採用する。
論文 参考訳(メタデータ) (2024-01-13T17:31:12Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - RescueNet: Joint Building Segmentation and Damage Assessment from
Satellite Imagery [83.49145695899388]
RescueNetは、建物を同時に分割し、個々の建物に対する損傷レベルを評価し、エンドツーエンドでトレーニングできる統一モデルである。
RescueNetは大規模で多様なxBDデータセットでテストされており、従来の手法よりもはるかに優れたセグメンテーションと損傷分類性能を実現している。
論文 参考訳(メタデータ) (2020-04-15T19:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。