論文の概要: High-Resolution Vision Transformers for Pixel-Level Identification of
Structural Components and Damage
- arxiv url: http://arxiv.org/abs/2308.03006v1
- Date: Sun, 6 Aug 2023 03:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:20:37.918371
- Title: High-Resolution Vision Transformers for Pixel-Level Identification of
Structural Components and Damage
- Title(参考訳): 高分解能視覚トランスフォーマによる構造成分と損傷のピクセルレベル同定
- Authors: Kareem Eltouny, Seyedomid Sajedi, and Xiao Liang
- Abstract要約: 視覚変換器とラプラシアピラミッドスケーリングネットワークに基づくセマンティックセグメンテーションネットワークを開発した。
提案手法は,橋梁検査報告画像のデータセットに関する総合的な実験を通じて評価されている。
- 参考スコア(独自算出の注目度): 1.8923948104852863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual inspection is predominantly used to evaluate the state of civil
structures, but recent developments in unmanned aerial vehicles (UAVs) and
artificial intelligence have increased the speed, safety, and reliability of
the inspection process. In this study, we develop a semantic segmentation
network based on vision transformers and Laplacian pyramids scaling networks
for efficiently parsing high-resolution visual inspection images. The massive
amounts of collected high-resolution images during inspections can slow down
the investigation efforts. And while there have been extensive studies
dedicated to the use of deep learning models for damage segmentation,
processing high-resolution visual data can pose major computational
difficulties. Traditionally, images are either uniformly downsampled or
partitioned to cope with computational demands. However, the input is at risk
of losing local fine details, such as thin cracks, or global contextual
information. Inspired by super-resolution architectures, our vision transformer
model learns to resize high-resolution images and masks to retain both the
valuable local features and the global semantics without sacrificing
computational efficiency. The proposed framework has been evaluated through
comprehensive experiments on a dataset of bridge inspection report images using
multiple metrics for pixel-wise materials detection.
- Abstract(参考訳): 視覚検査は主に土木構造物の状態を評価するために使用されるが、近年の無人航空機(UAV)と人工知能の開発により、検査プロセスの速度、安全性、信頼性が向上している。
本研究では,視覚トランスフォーマーとラプラシアピラミッドスケーリングネットワークに基づく意味セグメンテーションネットワークを開発し,高分解能視覚検査画像を効率的に解析する。
検査中に収集された大量の高解像度画像は、調査を遅らせる可能性がある。
また,損傷セグメンテーションにおけるディープラーニングモデルの利用に関する広範な研究も行われているが,高解像度の視覚データ処理は大きな計算困難をもたらす可能性がある。
伝統的に、画像は一様にサンプリングされるか、計算要求に対処するために分割される。
しかし、入力は、薄いひび割れやグローバルなコンテキスト情報など、局所的な詳細を失うリスクがある。
超高解像度アーキテクチャにインスパイアされた我々の視覚トランスフォーマーモデルは、高解像度の画像とマスクを小型化して、計算効率を犠牲にすることなく、貴重な局所特徴とグローバルセマンティクスの両方を保持する。
提案手法は,複数指標を用いた橋梁検査レポート画像のデータセットの総合的な実験により評価されている。
関連論文リスト
- PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - High-Fidelity Visual Structural Inspections through Transformers and
Learnable Resizers [2.126862120884775]
無人航空機(UAV)と人工知能の最近の進歩により、視覚検査はより速く、より安全で、より信頼性が高い。
高解像度セグメンテーションは、高い計算メモリ要求のために非常に難しい。
本稿では,グローバルとローカルのセマンティクスのトレードオフを管理することで,異なる検査タスクに適応できるハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-10-21T18:08:26Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Leveraging Image Complexity in Macro-Level Neural Network Design for
Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。
高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文 参考訳(メタデータ) (2021-12-21T09:49:47Z) - Sci-Net: a Scale Invariant Model for Building Detection from Aerial
Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。
具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文 参考訳(メタデータ) (2021-11-12T16:45:20Z) - Unsupervised Image Decomposition with Phase-Correlation Networks [28.502280038100167]
位相相関分解ネットワーク(PCDNet)は、シーンをオブジェクトコンポーネントに分解する新しいモデルである。
実験では,PCDNetが非教師対象発見とセグメンテーションの最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-07T13:57:33Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。