論文の概要: Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2308.03826v2
- Date: Mon, 4 Sep 2023 06:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 03:47:45.131832
- Title: Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection
- Title(参考訳): 高分解能サルエント物体検出のためのリカレントマルチスケール変圧器
- Authors: Xinhao Deng and Pingping Zhang and Wei Liu and Huchuan Lu
- Abstract要約: Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
- 参考スコア(独自算出の注目度): 68.65338791283298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient Object Detection (SOD) aims to identify and segment the most
conspicuous objects in an image or video. As an important pre-processing step,
it has many potential applications in multimedia and vision tasks. With the
advance of imaging devices, SOD with high-resolution images is of great demand,
recently. However, traditional SOD methods are largely limited to
low-resolution images, making them difficult to adapt to the development of
High-Resolution SOD (HRSOD). Although some HRSOD methods emerge, there are no
large enough datasets for training and evaluating. Besides, current HRSOD
methods generally produce incomplete object regions and irregular object
boundaries. To address above issues, in this work, we first propose a new
HRS10K dataset, which contains 10,500 high-quality annotated images at 2K-8K
resolution. As far as we know, it is the largest dataset for the HRSOD task,
which will significantly help future works in training and evaluating models.
Furthermore, to improve the HRSOD performance, we propose a novel Recurrent
Multi-scale Transformer (RMFormer), which recurrently utilizes shared
Transformers and multi-scale refinement architectures. Thus, high-resolution
saliency maps can be generated with the guidance of lower-resolution
predictions. Extensive experiments on both high-resolution and low-resolution
benchmarks show the effectiveness and superiority of the proposed framework.
The source code and dataset are released at:
https://github.com/DrowsyMon/RMFormer.
- Abstract(参考訳): Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
重要な前処理ステップとして、マルチメディアおよびビジョンタスクに多くの潜在的な応用がある。
撮像装置の進歩により、高解像度画像付きSODは近年非常に需要がある。
しかし、従来のSOD法は主に低解像度画像に限られており、高分解能SOD(HRSOD)の開発に適応することが困難である。
HRSODメソッドがいくつか現れるが、トレーニングや評価に十分なデータセットは存在しない。
さらに、現在のHRSOD法は一般に不完全な対象領域と不規則な対象境界を生成する。
上記の問題に対処するため,我々はまず2K-8K解像度で10,500個の高品質な注釈付き画像を含む新しいHRS10Kデータセットを提案する。
私たちが知る限り、これはhrsodタスクで最大のデータセットであり、将来のモデルのトレーニングと評価作業において非常に役立ちます。
さらに,HRSODの性能向上のために,共有トランスフォーマとマルチスケールリファインメントアーキテクチャを連続的に利用するRMFormer(Recurrent Multi-scale Transformer)を提案する。
したがって、低分解能予測のガイダンスにより、高分解能サリエンシマップを生成することができる。
高分解能および低分解能のベンチマークの広範な実験は、提案フレームワークの有効性と優位性を示している。
ソースコードとデータセットは、https://github.com/DrowsyMon/RMFormer.comで公開されている。
関連論文リスト
- DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストと画像の拡散モデルは、高忠実度画像生成の可能性から、様々な領域で広く採用されている。
既存の大規模拡散モデルでは、1K解像度の画像を生成できるが、これは現代の商用応用の要求を満たすには程遠い。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Disentangled High Quality Salient Object Detection [8.416690566816305]
本稿では,SOD(High- resolution Salient Object Detection)のための新しいディープラーニングフレームワークを提案する。
タスクを低分解能唾液度分類ネットワーク(LRSCN)と高分解能精製ネットワーク(HRRN)に切り離す。
論文 参考訳(メタデータ) (2021-08-08T02:14:15Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - A new public Alsat-2B dataset for single-image super-resolution [1.284647943889634]
本稿では,低空間解像度画像(10m, 2.5m)と高空間解像度画像(10m, 2.5m)の新たなリモートセンシングデータセット(Alsat2B)を提案する。
パンシャープ化により高分解能画像を得る。
その結果,提案手法は有望であり,データセットの課題を強調していることがわかった。
論文 参考訳(メタデータ) (2021-03-21T10:47:38Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。