論文の概要: DyRA: Dynamic Resolution Adjustment for Scale-robust Object Detection
- arxiv url: http://arxiv.org/abs/2311.17098v2
- Date: Thu, 7 Dec 2023 12:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:52:10.970767
- Title: DyRA: Dynamic Resolution Adjustment for Scale-robust Object Detection
- Title(参考訳): DyRA: スケールロバスト物体検出のための動的分解能調整
- Authors: Daeun Seo, Hoeseok Yang, Hyungshin Kim
- Abstract要約: 既存の検出器に対するDyRAと呼ばれる適応分解能スケーリングネットワークを提案する。
COCO, RetinaNet, Faster-RCNN, FCOS, Mask-RCNNに関する実験は, 1.3%, 1.1%, 1.3%, 0.8%の精度向上を達成した。
- 参考スコア(独自算出の注目度): 0.7519872646378836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In object detection, achieving constant accuracy is challenging due to the
variability of object sizes. One possible solution to this problem is to
optimize the input resolution, known as a multi-resolution strategy. Previous
approaches for optimizing resolution are often based on pre-defined resolutions
or a dynamic neural network, but there is a lack of study for run-time
resolution optimization for existing architecture. In this paper, we propose an
adaptive resolution scaling network called DyRA, which comprises convolutions
and transformer encoder blocks, for existing detectors. Our DyRA returns a
scale factor from an input image, which enables instance-specific scaling. This
network is jointly trained with detectors with specially designed loss
functions, namely ParetoScaleLoss and BalanceLoss. The ParetoScaleLoss produces
an adaptive scale factor from the image, while the BalanceLoss optimizes the
scale factor according to localization power for the dataset. The loss function
is designed to minimize accuracy drop about the contrasting objective of small
and large objects. Our experiments on COCO, RetinaNet, Faster-RCNN, FCOS, and
Mask-RCNN achieved 1.3%, 1.1%, 1.3%, and 0.8% accuracy improvement than a
multi-resolution baseline with solely resolution adjustment. The code is
available at https://github.com/DaEunFullGrace/DyRA.git.
- Abstract(参考訳): 物体検出において,物体の大きさの変動により一定精度を達成することは困難である。
この問題の1つの可能な解決策は、マルチレゾリューション戦略として知られる入力解像度を最適化することである。
解決を最適化するための従来のアプローチは、しばしば事前定義された解決や動的ニューラルネットワークに基づいているが、既存のアーキテクチャに対する実行時の解決最適化に関する研究は不足している。
本稿では,既存の検出器に対する畳み込みとトランスフォーマーエンコーダブロックを含むDyRAと呼ばれる適応分解能スケーリングネットワークを提案する。
我々のDyRAは、インスタンス固有のスケーリングを可能にする入力イメージからスケールファクターを返します。
このネットワークは、パレートスケールロス(paretoscaleloss)とバランスロス( balanceloss)という特別な設計の損失関数を持つ検出器と共同で訓練されている。
ParetoScaleLossは画像から適応的なスケールファクタを生成し、Ba BalanceLossはデータセットのローカライゼーションパワーに応じてスケールファクタを最適化する。
損失関数は、小物体と大物体の対比目的の精度低下を最小限に抑えるように設計されている。
COCO, RetinaNet, Faster-RCNN, FCOS, Mask-RCNNで行った実験は, 解像度調整のみによる多解像度ベースラインよりも1.3%, 1.1%, 1.3%, 0.8%の精度向上を実現した。
コードはhttps://github.com/DaEunFullGrace/DyRA.gitで入手できる。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Scale-Invariant Object Detection by Adaptive Convolution with Unified Global-Local Context [3.061662434597098]
本稿では,効率的なDetモデルに基づくSAC-Net(Switchable Atrous Convolutional Network)を用いたオブジェクト検出モデルを提案する。
提案したSAC-Netは,マルチスケールオブジェクト検出タスクの性能向上を実現するために,低レベル機能と高レベル機能の両方の利点をカプセル化している。
ベンチマークデータセットを用いた実験により,提案したSAC-Netは,精度の点で最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-17T10:08:37Z) - Depth Estimation using Weighted-loss and Transfer Learning [2.428301619698667]
転送学習と最適化された損失関数を用いた深度推定精度の向上のための簡易かつ適応的なアプローチを提案する。
本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。
EfficientNetが最も成功したアーキテクチャである。
論文 参考訳(メタデータ) (2024-04-11T12:25:54Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Dynamic Resolution Network [40.64164953983429]
現代のCNNの入力解像度の冗長性については、完全には研究されていない。
本稿では,各サンプルに基づいて動的に分解能を決定できる新しい動的分解能ネットワーク(DRNet)を提案する。
DRNetは34%の精度で同様の性能を実現しているが、ImageNetのResNet-50に比べて10%の精度で1.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2021-06-05T13:48:33Z) - Resolution Switchable Networks for Runtime Efficient Image Recognition [46.09537029831355]
本稿では,推論時に画像解像度を切り替えることのできる,単一の畳み込みニューラルネットワークを訓練する一般的な手法を提案する。
提案手法でトレーニングしたネットワークは、Resolvation Switchable Networks (RS-Nets) と呼ばれる。
論文 参考訳(メタデータ) (2020-07-19T02:12:59Z) - Resolution Adaptive Networks for Efficient Inference [53.04907454606711]
本稿では,低分解能表現が「容易」な入力を分類するのに十分である,という直感に触発された新しいレゾリューション適応ネットワーク(RANet)を提案する。
RANetでは、入力画像はまず、低解像度表現を効率的に抽出する軽量サブネットワークにルーティングされる。
ネットワーク内の高解像度パスは、"ハード"サンプルを認識する能力を維持している。
論文 参考訳(メタデータ) (2020-03-16T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。