論文の概要: Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter
- arxiv url: http://arxiv.org/abs/2407.08109v1
- Date: Thu, 11 Jul 2024 01:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 19:18:18.607731
- Title: Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter
- Title(参考訳): 都市透かし検出 : ベンチマークと大規模モデル共適応器
- Authors: Suqi Song, Chenxu Zhang, Peng Zhang, Pengkun Li, Fenglong Song, Lei Zhang,
- Abstract要約: 都市防水は公共の安全とインフラに大きなリスクをもたらす。
近年の進歩では、監視カメラ画像とディープラーニングによる検出が採用されているが、データ不足と環境条件の悪化に苦戦している。
我々は,現実の応用を進めるために,多様な有害な条件下で,挑戦的な都市水質評価ベンチマーク(UW-Bench)を構築した。
- 参考スコア(独自算出の注目度): 10.001964627074704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban waterlogging poses a major risk to public safety and infrastructure. Conventional methods using water-level sensors need high-maintenance to hardly achieve full coverage. Recent advances employ surveillance camera imagery and deep learning for detection, yet these struggle amidst scarce data and adverse environmental conditions. In this paper, we establish a challenging Urban Waterlogging Benchmark (UW-Bench) under diverse adverse conditions to advance real-world applications. We propose a Large-Small Model co-adapter paradigm (LSM-adapter), which harnesses the substantial generic segmentation potential of large model and the specific task-directed guidance of small model. Specifically, a Triple-S Prompt Adapter module alongside a Dynamic Prompt Combiner are proposed to generate then merge multiple prompts for mask decoder adaptation. Meanwhile, a Histogram Equalization Adap-ter module is designed to infuse the image specific information for image encoder adaptation. Results and analysis show the challenge and superiority of our developed benchmark and algorithm. Project page: \url{https://github.com/zhang-chenxu/LSM-Adapter}
- Abstract(参考訳): 都市防水は公共の安全とインフラに大きなリスクをもたらす。
従来の水位センサーを用いた方法は、完全なカバレッジを達成できないために、高い保守性を必要とする。
近年の進歩では、監視カメラ画像とディープラーニングによる検出が採用されているが、データ不足と環境条件の悪化に苦戦している。
本稿では,様々な悪条件下でUW-Bench(Urban Waterlogging Benchmark)を立案し,現実の応用を推し進める。
本稿では,大規模モデルの実質的なセグメンテーションポテンシャルと,小型モデルのタスク指向ガイダンスを利用する大小モデルコアダプターパラダイム(LSM-adapter)を提案する。
具体的には、Dynamic Prompt Combinerと一緒にTriple-S Prompt Adapterモジュールを提案し、マスクデコーダ適応のために複数のプロンプトをマージする。
一方、ヒストグラム等化Adap-terモジュールは、画像エンコーダ適応のための画像固有情報を注入するように設計されている。
結果と分析は,開発したベンチマークとアルゴリズムの課題と優位性を示している。
プロジェクトページ: \url{https://github.com/zhang-chenxu/LSM-Adapter}
関連論文リスト
- Doubly-Dynamic ISAC Precoding for Vehicular Networks: A Constrained Deep Reinforcement Learning (CDRL) Approach [11.770137653756697]
車両ネットワークを支えるためにはISAC技術が不可欠である。
このシナリオの通信チャネルは時間変化を示し、潜在的なターゲットは急速に移動し、二重ダイナミクスをもたらす。
制約付き強化学習を用いてISACプリコーダの動的更新を容易にすることを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:19:14Z) - MiniMaxAD: A Lightweight Autoencoder for Feature-Rich Anomaly Detection [1.7234530131333607]
MiniMaxADは、通常の画像から広範囲の情報を効率よく圧縮・記憶する軽量オートエンコーダである。
このモデルでは,特徴量の多様性を向上し,ネットワークの有効容量を増大させる手法を採用している。
提案手法では,機能豊富な異常検出の枠組みの下で任意のデータセットを統一することができる。
論文 参考訳(メタデータ) (2024-05-16T09:37:54Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Towards Robust Semantic Segmentation of Accident Scenes via Multi-Source
Mixed Sampling and Meta-Learning [29.74171323437029]
本稿では,セグメント化変換器を極端に事故現場に一般化するための多元的メタラーニング・アン教師付きドメイン適応フレームワークを提案する。
DADA-segベンチマークではmIoUスコアが46.97%に達し,従来の最先端モデルよりも7.50%以上向上した。
論文 参考訳(メタデータ) (2022-03-19T21:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。