論文の概要: Ultra-High Resolution Segmentation with Ultra-Rich Context: A Novel
Benchmark
- arxiv url: http://arxiv.org/abs/2305.10899v1
- Date: Thu, 18 May 2023 11:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:36:49.305440
- Title: Ultra-High Resolution Segmentation with Ultra-Rich Context: A Novel
Benchmark
- Title(参考訳): 超リッチコンテキストによる超高分解能セグメンテーション:新しいベンチマーク
- Authors: Deyi Ji, Feng Zhao, Hongtao Lu, Mingyuan Tao, Jieping Ye
- Abstract要約: URURデータセットには、サイズ5,120x5,120の3,008枚の画像、63都市からの幅広い複雑なシーン、豊富なコンテキストが含まれている。
また、UHRセグメンテーションのためのより効率的で効果的なフレームワークであるWSDNetを、特に超リッチなコンテキストで提案する。
いくつかのUHRデータセットの実験は、最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 57.55282704762691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing interest and rapid development of methods for Ultra-High
Resolution (UHR) segmentation, a large-scale benchmark covering a wide range of
scenes with full fine-grained dense annotations is urgently needed to
facilitate the field. To this end, the URUR dataset is introduced, in the
meaning of Ultra-High Resolution dataset with Ultra-Rich Context. As the name
suggests, URUR contains amounts of images with high enough resolution (3,008
images of size 5,120x5,120), a wide range of complex scenes (from 63 cities),
rich-enough context (1 million instances with 8 categories) and fine-grained
annotations (about 80 billion manually annotated pixels), which is far superior
to all the existing UHR datasets including DeepGlobe, Inria Aerial, UDD, etc..
Moreover, we also propose WSDNet, a more efficient and effective framework for
UHR segmentation especially with ultra-rich context. Specifically, multi-level
Discrete Wavelet Transform (DWT) is naturally integrated to release computation
burden while preserve more spatial details, along with a Wavelet Smooth Loss
(WSL) to reconstruct original structured context and texture with a smooth
constrain. Experiments on several UHR datasets demonstrate its state-of-the-art
performance. The dataset is available at https://github.com/jankyee/URUR.
- Abstract(参考訳): 超高分解能(UHR)セグメンテーションへの関心が高まり、急速に発展するにつれて、広範囲のシーンをカバーする大規模なベンチマークが緊急に必要となる。
この目的のために、URURデータセットはUltra-Richコンテキストを用いたUltra-High Resolutionデータセットの意味において導入された。
URURは、解像度が十分高い画像(サイズ5,120x5,120の3,008枚)、複雑なシーン(63の都市から)、豊富なコンテキスト(8つのカテゴリを持つ100万のインスタンス)、細かいアノテーション(約800億の注釈付きピクセル)など、DeepGlobe、Inria Aerial、UDDなど既存のUHRデータセットよりもはるかに優れている。
さらに,UHRセグメンテーションのためのより効率的かつ効果的なフレームワークであるWSDNetも提案する。
特に、マルチレベル離散ウェーブレット変換(dwt)は、より空間的な詳細を保ちながら、計算負荷を解放するために自然に統合され、元の構造化されたコンテキストとテクスチャを滑らかな制約で再構築するウェーブレット滑らかな損失(wsl)と共に構成される。
いくつかのUHRデータセットの実験は、最先端のパフォーマンスを示している。
データセットはhttps://github.com/jankyee/urur。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More [7.974102031202597]
EvLight++は、現実のシナリオで堅牢なパフォーマンスのために設計された、イベント誘導型低照度ビデオ拡張アプローチである。
EvLight++は1.37dBと3.71dBの2つのイメージベースとビデオベースの両方で大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-08-29T04:30:31Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation [3.349875948009985]
我々は、GTA-V(Grand Theft Auto)から1920×1080の高解像度合成深度データセット(HRSD)を生成する。
実験と解析のために,提案した合成データセットに基づいて,最先端の変換器に基づくMDEアルゴリズムであるDPTアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させる。
論文 参考訳(メタデータ) (2023-05-02T19:03:08Z) - An Efficient Multi-Scale Fusion Network for 3D Organ at Risk (OAR)
Segmentation [2.6770199357488242]
我々はOARFocalFuseNetと呼ばれる新しいOARセグメンテーションフレームワークを提案する。
マルチスケールの特徴を融合させ、複数のスケールにわたるグローバルローカルコンテキストのキャプチャに焦点変調を用いる。
OARFocalFuseNetはOpenKBPデータセット上で0.7995のダイス係数と5.1435のハウスドルフ距離を得た。
論文 参考訳(メタデータ) (2022-08-15T19:40:18Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。