論文の概要: Improving Facade Parsing with Vision Transformers and Line Integration
- arxiv url: http://arxiv.org/abs/2309.15523v5
- Date: Sat, 7 Oct 2023 03:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:57:11.450403
- Title: Improving Facade Parsing with Vision Transformers and Line Integration
- Title(参考訳): 視覚トランスフォーマーとライン統合によるファサード解析の改善
- Authors: Bowen Wang, Jiaxing Zhang, Ran Zhang, Yunqin Li, Liangzhi Li, Yuta
Nakashima
- Abstract要約: ファサード解析は、建築、都市計画、エネルギー効率といった分野における広範囲の応用において重要なコンピュータビジョンタスクである。
最近のディープラーニングベースの手法の成功により、特定のオープンソースデータセットに対する印象的な結果が得られたが、現実のアプリケーションに対するその生存性は、まだ不明である。
本稿では,実世界のファサード解析タスクの複雑さを綿密に扱えるように設計されたデータセットであるComprehensive Facade Parsing (CFP)を紹介する。
- 参考スコア(独自算出の注目度): 22.716030461382232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facade parsing stands as a pivotal computer vision task with far-reaching
applications in areas like architecture, urban planning, and energy efficiency.
Despite the recent success of deep learning-based methods in yielding
impressive results on certain open-source datasets, their viability for
real-world applications remains uncertain. Real-world scenarios are
considerably more intricate, demanding greater computational efficiency.
Existing datasets often fall short in representing these settings, and previous
methods frequently rely on extra models to enhance accuracy, which requires
much computation cost. In this paper, we introduce Comprehensive Facade Parsing
(CFP), a dataset meticulously designed to encompass the intricacies of
real-world facade parsing tasks. Comprising a total of 602 high-resolution
street-view images, this dataset captures a diverse array of challenging
scenarios, including sloping angles and densely clustered buildings, with
painstakingly curated annotations for each image. We introduce a new pipeline
known as Revision-based Transformer Facade Parsing (RTFP). This marks the
pioneering utilization of Vision Transformers (ViT) in facade parsing, and our
experimental results definitively substantiate its merit. We also design Line
Acquisition, Filtering, and Revision (LAFR), an efficient yet accurate revision
algorithm that can improve the segment result solely from simple line detection
using prior knowledge of the facade. In ECP 2011, RueMonge 2014, and our CFP,
we evaluate the superiority of our method.
- Abstract(参考訳): ファサード解析は重要なコンピュータビジョンタスクであり、アーキテクチャ、都市計画、エネルギー効率といった分野の幅広いアプリケーションを扱う。
ディープラーニングベースの手法が、特定のオープンソースデータセットで印象的な結果をもたらすことに成功しているにも関わらず、現実のアプリケーションに対するその生存性は、いまだに不明である。
現実世界のシナリオはかなり複雑で、計算効率が向上する。
既存のデータセットはこれらの設定を表現するのに不足することが多く、以前の手法は精度を高めるために余分なモデルに依存することが多い。
本稿では,実世界のファサード解析タスクの複雑さを網羅したデータセットであるComprehensive Facade Parsing (CFP)を紹介する。
合計602枚の高解像度ストリートビュー画像からなるこのデータセットは、傾斜角や密集した建物など、さまざまな難易度シナリオを捉え、各画像に注意深い注釈を付ける。
Revision-based Transformer Facade Parsing (RTFP) と呼ばれる新しいパイプラインを導入する。
これはファサード解析における視覚トランスフォーマー(vit)の先駆的利用を示し,その効果を実験的に検証した。
また、ファサードの事前知識を用いた単純な線検出のみでセグメント結果を改善することができる効率的かつ正確な修正アルゴリズムであるLine Acquisition, Filtering, Revision (LAFR) を設計する。
ECP 2011, RueMonge 2014およびCFPにおいて, 本手法の優位性を評価した。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures [27.386915138058416]
本稿では,ViT,ConvNeXt,Swin Transformersといった先進的な事前学習型アーキテクチャの有効性について検討した。
我々は、ImageNet-1K、ImageNet-21K、JFT-300M、ImageNet-22Kといった広範囲な事前学習データセットを用いて、これらのアーキテクチャの様々なバリエーションを評価する。
パラメータが少ないにもかかわらず、より大規模なResNetモデルよりも優れたモデルが存在することを観察する。
論文 参考訳(メタデータ) (2024-09-20T14:09:05Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - FloorLevel-Net: Recognizing Floor-Level Lines with
Height-Attention-Guided Multi-task Learning [49.30194762653723]
本研究は, 教師付き深層学習手法を用いて, ストリートビュー画像中のフロアレベル線の位置を求める問題に対処する。
まず、新しいデータセットをコンパイルし、トレーニングサンプルを合成する新しいデータ拡張スキームを開発する。
次にFloorLevel-Netを設計する。FloorLevel-Netは、ファサードと暗黙のフロアレベルラインの明示的な特徴を関連付けるマルチタスク学習ネットワークである。
論文 参考訳(メタデータ) (2021-07-06T08:17:59Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Early Bird: Loop Closures from Opposing Viewpoints for
Perceptually-Aliased Indoor Environments [35.663671249819124]
本稿では,視点変化と知覚的エイリアスを同時に扱う新しい研究を提案する。
本稿では,VPRとSLAMの統合により,VPRの性能向上,特徴対応,グラフサブモジュールのポーズが著しく促進されることを示す。
知覚的エイリアス化や180度回転する極端な視点変化に拘わらず,最先端のパフォーマンスを実現するローカライズシステムについて初めて紹介する。
論文 参考訳(メタデータ) (2020-10-03T20:18:55Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。