論文の概要: Modeling Multi-Granularity Context Information Flow for Pavement Crack Detection
- arxiv url: http://arxiv.org/abs/2404.12702v1
- Date: Fri, 19 Apr 2024 08:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:45:58.780818
- Title: Modeling Multi-Granularity Context Information Flow for Pavement Crack Detection
- Title(参考訳): 舗装き裂検出のための多粒度コンテキスト情報流のモデル化
- Authors: Junbiao Pang, Baocheng Xiong, Jiaqi Wu,
- Abstract要約: ひび割れ検出はコンピュータビジョンコミュニティでは不可欠で、興味深いが難しい課題となっている。
本研究では,文脈情報の流れをモデル化するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法は,現在の最先端手法よりも優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 1.7111473159317097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crack detection has become an indispensable, interesting yet challenging task in the computer vision community. Specially, pavement cracks have a highly complex spatial structure, a low contrasting background and a weak spatial continuity, posing a significant challenge to an effective crack detection method. In this paper, we address these problems from a view that utilizes contexts of the cracks and propose an end-to-end deep learning method to model the context information flow. To precisely localize crack from an image, it is critical to effectively extract and aggregate multi-granularity context, including the fine-grained local context around the cracks (in spatial-level) and the coarse-grained semantics (in segment-level). Concretely, in Convolutional Neural Network (CNN), low-level features extracted by the shallow layers represent the local information, while the deep layers extract the semantic features. Additionally, a second main insight in this work is that the semantic context should be an guidance to local context feature. By the above insights, the proposed method we first apply the dilated convolution as the backbone feature extractor to model local context, then we build a context guidance module to leverage semantic context to guide local feature extraction at multiple stages. To handle label alignment between stages, we apply the Multiple Instance Learning (MIL) strategy to align the high-level feature to the low-level ones in the stage-wise context flow. In addition, compared with these public crack datasets, to our best knowledge, we release the largest, most complex and most challenging Bitumen Pavement Crack (BPC) dataset. The experimental results on the three crack datasets demonstrate that the proposed method performs well and outperforms the current state-of-the-art methods.
- Abstract(参考訳): ひび割れ検出はコンピュータビジョンコミュニティでは不可欠で、興味深いが難しい課題となっている。
特に、舗装き裂は、非常に複雑な空間構造、低コントラスト背景、弱い空間連続性を持ち、効率的なき裂検出法に重大な課題を生んでいる。
本稿では, ひび割れの文脈を利用する視点からこれらの問題に対処し, 文脈情報の流れをモデル化するエンド・ツー・エンドのディープラーニング手法を提案する。
画像からき裂を正確に局所化するためには、き裂周辺のき裂(空間レベルで)と粗いき裂(セグメントレベルで)を含む多粒度コンテキストを効果的に抽出し集約することが重要である。
具体的には、畳み込みニューラルネットワーク(CNN)では、浅い層によって抽出された低レベル特徴が局所情報を表し、深い層が意味的特徴を抽出する。
さらに、この作業における2つ目の大きな洞察は、セマンティックコンテキストがローカルコンテキスト機能へのガイダンスであるべきだということです。
以上の知見により,提案手法はまず,拡張畳み込みを局所的コンテキストをモデル化するためのバックボーン特徴抽出器として適用し,その後,意味的コンテキストを活用するコンテキスト誘導モジュールを構築し,複数の段階における局所的特徴抽出を誘導する。
ステージ間のラベルアライメントを扱うために、MIL(Multiple Instance Learning)戦略を適用し、ステージ単位のコンテキストフローにおいて、高レベルの特徴と低レベルの特徴とを整合させる。
さらに、これらの公開クラックデータセットと比較して、私たちの知る限り、最大の、最も複雑で、最も難しいBitumen Pavement Crack(BPC)データセットをリリースしています。
3つのひび割れデータセットの実験結果から,提案手法の動作は良好であり,最先端の手法よりも優れていることが示された。
関連論文リスト
- FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Learning Robust Representation for Clustering through Locality
Preserving Variational Discriminative Network [16.259673823482665]
Variational Deep Embeddingは、さまざまなクラスタリングタスクで大きな成功を収めます。
VaDEは,1)入力ノイズに弱い,2)隣接するデータポイント間の局所性情報を無視する,という2つの問題に悩まされている。
強固な埋め込み判別器と局所構造制約によりvadeを改善する共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-25T02:31:55Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - Contextual Interference Reduction by Selective Fine-Tuning of Neural
Networks [1.0152838128195465]
本研究では,不整合前景対象オブジェクト表現の干渉におけるコンテキストの役割について検討する。
私たちはボトムアップとトップダウンの処理パラダイムの恩恵を受けるフレームワークに取り組んでいます。
論文 参考訳(メタデータ) (2020-11-21T20:11:12Z) - Learning Local Features with Context Aggregation for Visual Localization [24.167882373322957]
キーポイントの検出と記述は多くの視覚応用において不可欠である。
既存のほとんどのメソッドは、コンテキスト情報を考慮せずにローカル特徴を学習するために、検出-then-describeまたは検出-and-describe戦略を使用している。
本稿では,局所特徴の識別性を改善するために,低レベルテキスト情報と高レベル意味文脈情報の融合に着目した。
論文 参考訳(メタデータ) (2020-05-26T17:19:06Z) - Local Propagation in Constraint-based Neural Network [77.37829055999238]
ニューラルネットワークアーキテクチャの制約に基づく表現について検討する。
本稿では,いわゆるアーキテクチャ制約を満たすのに適した簡単な最適化手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T16:47:38Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。