論文の概要: High-Fidelity Visual Structural Inspections through Transformers and
Learnable Resizers
- arxiv url: http://arxiv.org/abs/2210.12175v1
- Date: Fri, 21 Oct 2022 18:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:59:16.417457
- Title: High-Fidelity Visual Structural Inspections through Transformers and
Learnable Resizers
- Title(参考訳): 変圧器と学習可能なリサイザによる高忠実度視覚構造検査
- Authors: Kareem Eltouny, Seyedomid Sajedi, Xiao Liang
- Abstract要約: 無人航空機(UAV)と人工知能の最近の進歩により、視覚検査はより速く、より安全で、より信頼性が高い。
高解像度セグメンテーションは、高い計算メモリ要求のために非常に難しい。
本稿では,グローバルとローカルのセマンティクスのトレードオフを管理することで,異なる検査タスクに適応できるハイブリッド戦略を提案する。
- 参考スコア(独自算出の注目度): 2.126862120884775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual inspection is the predominant technique for evaluating the condition
of civil infrastructure. The recent advances in unmanned aerial vehicles (UAVs)
and artificial intelligence have made the visual inspections faster, safer, and
more reliable. Camera-equipped UAVs are becoming the new standard in the
industry by collecting massive amounts of visual data for human inspectors.
Meanwhile, there has been significant research on autonomous visual inspections
using deep learning algorithms, including semantic segmentation. While UAVs can
capture high-resolution images of buildings' fa\c{c}ades, high-resolution
segmentation is extremely challenging due to the high computational memory
demands. Typically, images are uniformly downsized at the price of losing fine
local details. Contrarily, breaking the images into multiple smaller patches
can cause a loss of global contextual in-formation. We propose a hybrid
strategy that can adapt to different inspections tasks by managing the global
and local semantics trade-off. The framework comprises a compound,
high-resolution deep learning architecture equipped with an attention-based
segmentation model and learnable downsampler-upsampler modules designed for
optimal efficiency and in-formation retention. The framework also utilizes
vision transformers on a grid of image crops aiming for high precision learning
without downsizing. An augmented inference technique is used to boost the
performance and re-duce the possible loss of context due to grid cropping.
Comprehensive experiments have been performed on 3D physics-based graphics
models synthetic environments in the Quake City dataset. The proposed framework
is evaluated using several metrics on three segmentation tasks: component type,
component damage state, and global damage (crack, rebar, spalling).
- Abstract(参考訳): 視覚検査は公共インフラの状態を評価するための主要な技術である。
無人航空機(UAV)と人工知能の最近の進歩により、視覚検査はより速く、より安全で、より信頼できるものになった。
カメラ付きuavは、人間の検査官のために大量の視覚データを収集することで、業界で新しい標準になりつつある。
一方、セマンティックセグメンテーションを含むディープラーニングアルゴリズムを用いた自律的な視覚検査に関する研究が盛んである。
UAVは建物のfa\c{c} の高解像度画像をキャプチャできるが、高解像度のセグメンテーションは高い計算メモリ要求のために非常に難しい。
通常、画像は局所的な細部を失う価格で一様に縮小される。
逆に、画像を複数の小さなパッチに分割すると、グローバルコンテキストのインフォーメーションが失われる可能性がある。
グローバルセマンティクスとローカルセマンティクスのトレードオフを管理することにより,異なるインスペクションタスクに適応可能なハイブリッド戦略を提案する。
本発明のフレームワークは、注目に基づくセグメンテーションモデルと学習可能なダウンサンプラーアップサンプラーモジュールとを備えた複合的で高解像度のディープラーニングアーキテクチャからなる。
このフレームワークは、縮小することなく高精度の学習を目的とした画像作物のグリッド上に視覚変換器を利用する。
拡張推論技術は、性能を高め、グリッドの刈り取りによるコンテキストの損失を再現するために用いられる。
クエーカーシティデータセットの3次元物理モデルを用いた総合的な実験が実施されている。
提案するフレームワークは,コンポーネントタイプ,コンポーネント損傷状態,大域損傷(ラック,リバー,スポーリング)の3つのセグメンテーションタスクの指標を用いて評価する。
関連論文リスト
- Scaling Multi-Camera 3D Object Detection through Weak-to-Strong Eliciting [32.66151412557986]
本研究では,頑健な単分子知覚を維持しつつ,サラウンドリファインメントの強化を目的とした弱強誘引フレームワークを提案する。
我々のフレームワークは、異なるサブセットで訓練された弱い調整された専門家を採用しており、それぞれが固有のカメラ構成やシナリオに偏っている。
MC3D-Detジョイントトレーニングでは、不整合カメラ数とカメラパラメータの問題を解決するために、詳細なデータセットマージ戦略が設計されている。
論文 参考訳(メタデータ) (2024-04-10T03:11:10Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - High-Resolution Vision Transformers for Pixel-Level Identification of
Structural Components and Damage [1.8923948104852863]
視覚変換器とラプラシアピラミッドスケーリングネットワークに基づくセマンティックセグメンテーションネットワークを開発した。
提案手法は,橋梁検査報告画像のデータセットに関する総合的な実験を通じて評価されている。
論文 参考訳(メタデータ) (2023-08-06T03:34:25Z) - CarPatch: A Synthetic Benchmark for Radiance Field Evaluation on Vehicle
Components [77.33782775860028]
車両の新たな総合ベンチマークであるCarPatchを紹介する。
内在カメラパラメータと外在カメラパラメータを付加した画像のセットに加えて、各ビューに対して対応する深度マップとセマンティックセグメンテーションマスクが生成されている。
グローバルとパートベースのメトリクスは、いくつかの最先端技術を評価し、比較し、より良い特徴付けるために定義され、使われてきた。
論文 参考訳(メタデータ) (2023-07-24T11:59:07Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - A hierarchical semantic segmentation framework for computer vision-based
bridge damage detection [3.7642333932730634]
遠隔カメラと無人航空機(UAV)を用いたコンピュータビジョンによる損傷検出は、効率的で低コストなブリッジの健康モニタリングを可能にする。
本稿では,コンポーネントカテゴリと損傷タイプ間の階層的意味関係を強制するセグメンテーションフレームワークを提案する。
このようにして、損傷検出モデルは、潜在的な損傷領域からのみ学習特徴に焦点をあてることができ、他の無関係領域の影響を避けることができる。
論文 参考訳(メタデータ) (2022-07-18T18:42:54Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Sci-Net: a Scale Invariant Model for Building Detection from Aerial
Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。
具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文 参考訳(メタデータ) (2021-11-12T16:45:20Z) - Fast and Robust Structural Damage Analysis of Civil Infrastructure Using
UAV Imagery [0.0]
自動構造検査損傷解析のためのエンドツーエンド手法を提案する。
自動オブジェクト検出とセグメンテーションを使用して、欠陥、ブリッジユーティリティ、エレメントを正確にローカライズする。
本手法は,UAV画像の高速かつロバストな損傷解析を可能にするだけでなく,手動で取得した画像の解析にも有効である。
論文 参考訳(メタデータ) (2021-10-10T14:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。