論文の概要: PaveCap: The First Multimodal Framework for Comprehensive Pavement Condition Assessment with Dense Captioning and PCI Estimation
- arxiv url: http://arxiv.org/abs/2408.04110v1
- Date: Wed, 7 Aug 2024 22:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:10:20.229594
- Title: PaveCap: The First Multimodal Framework for Comprehensive Pavement Condition Assessment with Dense Captioning and PCI Estimation
- Title(参考訳): PaveCap:Dense CaptioningとPCI推定による総合舗装条件評価のための最初のマルチモーダルフレームワーク
- Authors: Blessing Agyei Kyem, Eugene Kofi Okrah Denteh, Joshua Kofi Asamoah, Armstrong Aboah,
- Abstract要約: 自動舗装条件評価のための新しいフレームワークPaveCapを紹介する。
このフレームワークは、Single-Shot PCI Estimation NetworkとDense Captioning Networkの2つの主要な部分で構成されている。
- 参考スコア(独自算出の注目度): 3.6248657646376707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research introduces the first multimodal approach for pavement condition assessment, providing both quantitative Pavement Condition Index (PCI) predictions and qualitative descriptions. We introduce PaveCap, a novel framework for automated pavement condition assessment. The framework consists of two main parts: a Single-Shot PCI Estimation Network and a Dense Captioning Network. The PCI Estimation Network uses YOLOv8 for object detection, the Segment Anything Model (SAM) for zero-shot segmentation, and a four-layer convolutional neural network to predict PCI. The Dense Captioning Network uses a YOLOv8 backbone, a Transformer encoder-decoder architecture, and a convolutional feed-forward module to generate detailed descriptions of pavement conditions. To train and evaluate these networks, we developed a pavement dataset with bounding box annotations, textual annotations, and PCI values. The results of our PCI Estimation Network showed a strong positive correlation (0.70) between predicted and actual PCIs, demonstrating its effectiveness in automating condition assessment. Also, the Dense Captioning Network produced accurate pavement condition descriptions, evidenced by high BLEU (0.7445), GLEU (0.5893), and METEOR (0.7252) scores. Additionally, the dense captioning model handled complex scenarios well, even correcting some errors in the ground truth data. The framework developed here can greatly improve infrastructure management and decision18 making in pavement maintenance.
- Abstract(参考訳): 本研究は, 定量的舗装条件指標(PCI)予測と質的記述の両方を提供する, 舗装条件評価のための最初のマルチモーダルアプローチを提案する。
自動舗装条件評価のための新しいフレームワークPaveCapを紹介する。
このフレームワークは、Single-Shot PCI Estimation NetworkとDense Captioning Networkの2つの主要な部分で構成されている。
PCI推定ネットワークは、オブジェクト検出にYOLOv8、ゼロショットセグメンテーションにSAM(Segment Anything Model)、PCIを予測するために4層畳み込みニューラルネットワークを使用する。
Dense Captioning Networkは、YOLOv8バックボーン、Transformerエンコーダデコーダアーキテクチャ、および畳み込みフィードフォワードモジュールを使用して、舗装条件の詳細な記述を生成する。
これらのネットワークをトレーニングし評価するために,バウンディングボックスアノテーション,テキストアノテーション,PCI値を用いた舗装データセットを開発した。
その結果,PCI推定ネットワークは予測値と実際のPCIとの間に強い正の相関(0.70)を示し,条件自動評価の有効性を示した。
また、Dense Captioning Networkは、高いBLEU (0.7445)、GLEU (0.5893)、METEOR (0.7252)のスコアで証明された正確な舗装条件の記述を作成した。
さらに、密度の高いキャプションモデルは複雑なシナリオをうまく処理し、地上の真実データに誤りを訂正する。
ここで開発されたフレームワークは、舗装維持におけるインフラ管理と意思決定を大幅に改善することができる。
関連論文リスト
- MacFormer: Map-Agent Coupled Transformer for Real-time and Robust
Trajectory Prediction [26.231420111336565]
実時間およびロバストな軌道予測のためのMap-Agent Coupled Transformer (MacFormer)を提案する。
本フレームワークは,共用マップと参照抽出器という,慎重に設計された2つのモジュールを通じて,マップ制約をネットワークに明示的に組み込む。
我々はArgoverse 1 と Argoverse 2 と nuScenes の実世界のベンチマークに対するアプローチを評価し、いずれも最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-20T14:27:28Z) - SPP-CNN: An Efficient Framework for Network Robustness Prediction [13.742495880357493]
本稿では,空間ピラミッドプール畳み込みニューラルネットワーク(SPP-CNN)のネットワークロバスト性予測のための効率的なフレームワークを開発する。
新しいフレームワークは、畳み込み層と完全に接続された層の間に空間ピラミッドプーリング層を設置し、CNNベースの予測アプローチにおける一般的なミスマッチ問題を克服する。
論文 参考訳(メタデータ) (2023-05-13T09:09:20Z) - FUSegNet: A Deep Convolutional Neural Network for Foot Ulcer
Segmentation [3.880691536038042]
FUSegNetは糖尿病患者の足部潰瘍分節の新しいモデルである。
トレーニング済みのEfficientNet-b7をバックボーンとして使用し、限られたトレーニングサンプルの問題に対処する。
論文 参考訳(メタデータ) (2023-05-04T16:07:22Z) - Dermatological Diagnosis Explainability Benchmark for Convolutional
Neural Networks [8.772468575761366]
畳み込みニューラルネットワーク(ConvNets)は、医療画像において最も一般的な(DL)手法である。
ConvNetの決定メカニズムに関する洞察を得るための一般的な方法は、勾配クラス活性化マップ(Grad-CAM)である。
我々は,このタスクに最もよく使用されるConvNetアーキテクチャを特定し,それらのGrad-CAM説明とDermXDBが提供する説明マップを比較した。
論文 参考訳(メタデータ) (2023-02-23T15:16:40Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Exploration of Optimized Semantic Segmentation Architectures for
edge-Deployment on Drones [5.349223987137843]
本稿では,UAVデータ処理におけるセマンティックセグメンテーションアーキテクチャにおけるネットワークパラメータの影響について分析する。
我々は,FPN-EfficientNetB3 の最適ネットワークアーキテクチャを Imagenet に基づいて事前学習したバックボーンエンコーダで同定する。
Model: FPNとBackbone: InResnetV2と比較して、メモリの4.1倍の節約と10%のレイテンシ改善を実現しています。
論文 参考訳(メタデータ) (2020-07-06T15:49:18Z) - Benchmarking Network Embedding Models for Link Prediction: Are We Making
Progress? [84.43405961569256]
我々はリンク予測のためのネットワーク埋め込み手法の最先端について光を当てた。
私たちは、一貫した評価パイプラインを使用して、過去数年間でわずかに進歩しただけであることを示しています。
我々は、標準化された評価ツールがこの状況を修復し、この分野の将来的な進歩を促進することができると論じている。
論文 参考訳(メタデータ) (2020-02-25T16:59:09Z) - PSC-Net: Learning Part Spatial Co-occurrence for Occluded Pedestrian
Detection [144.19392893747582]
本稿では,歩行者検出のための新しいアプローチをPSC-Netと呼ぶ。
PSC-Netは、グラフ畳み込みネットワーク(GCN)を介して、異なる歩行者体のパーツ間の共起情報と部分内共起情報の両方をキャプチャする
我々のPSC-Netは歩行者のトポロジ的構造を利用しており、空間的共起を学習するために、部分ベースのアノテーションや視覚的バウンディングボックス(VBB)情報を必要としない。
論文 参考訳(メタデータ) (2020-01-25T02:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。