論文の概要: Elastic-DETR: Making Image Resolution Learnable with Content-Specific Network Prediction
- arxiv url: http://arxiv.org/abs/2412.06341v1
- Date: Mon, 09 Dec 2024 09:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:29.873055
- Title: Elastic-DETR: Making Image Resolution Learnable with Content-Specific Network Prediction
- Title(参考訳): Elastic-DETR:コンテンツ特化ネットワーク予測による画像分解能の学習
- Authors: Daeun Seo, Hoeseok Yang, Sihyeong Park, Hyungshin Kim,
- Abstract要約: 我々は,複数の画像解像度の弾性利用を可能にする,Elastic-DETRと呼ばれる学習可能な解像度のための新しい戦略を導入する。
我々のネットワークは、コンパクトなスケール予測モジュールを用いて、画像の内容に基づいて適応的なスケールファクタを提供する。
解像度の柔軟性を活用することで、精度と計算複雑性のトレードオフを様々に示す様々なモデルを実演することができる。
- 参考スコア(独自算出の注目度): 0.612477318852572
- License:
- Abstract: Multi-scale image resolution is a de facto standard approach in modern object detectors, such as DETR. This technique allows for the acquisition of various scale information from multiple image resolutions. However, manual hyperparameter selection of the resolution can restrict its flexibility, which is informed by prior knowledge, necessitating human intervention. This work introduces a novel strategy for learnable resolution, called Elastic-DETR, enabling elastic utilization of multiple image resolutions. Our network provides an adaptive scale factor based on the content of the image with a compact scale prediction module (< 2 GFLOPs). The key aspect of our method lies in how to determine the resolution without prior knowledge. We present two loss functions derived from identified key components for resolution optimization: scale loss, which increases adaptiveness according to the image, and distribution loss, which determines the overall degree of scaling based on network performance. By leveraging the resolution's flexibility, we can demonstrate various models that exhibit varying trade-offs between accuracy and computational complexity. We empirically show that our scheme can unleash the potential of a wide spectrum of image resolutions without constraining flexibility. Our models on MS COCO establish a maximum accuracy gain of 3.5%p or 26% decrease in computation than MS-trained DN-DETR.
- Abstract(参考訳): マルチスケール画像解像度は、DETRのような現代の物体検出器におけるデファクト標準のアプローチである。
この技術により、複数の画像解像度から様々なスケール情報を取得することができる。
しかし、手動による解像度のハイパーパラメータ選択は、人間の介入を必要とする事前の知識によって通知される柔軟性を制限することができる。
この研究は、Elastic-DETRと呼ばれる学習可能な解像度のための新しい戦略を導入し、複数の画像解像度の弾性的利用を可能にした。
本ネットワークは,コンパクトなスケール予測モジュール (2 GFLOPs) を用いて,画像の内容に基づいて適応的なスケールファクタを提供する。
我々の手法の鍵となる側面は、事前の知識を使わずに解決方法を決定することである。
本稿では、画像に応じて適応性を向上するスケールロスと、ネットワーク性能に基づく全体的なスケーリングの度合いを決定する分布損失という、解像度最適化のための鍵成分から導出される2つの損失関数について述べる。
解像度の柔軟性を活用することで、精度と計算複雑性のトレードオフを様々に示す様々なモデルを実演することができる。
我々は,この手法がフレキシビリティを制約することなく,幅広い画像解像度のポテンシャルを解き放つことを実証的に示す。
我々のMS COCOモデルでは,MS-trained DN-DETRよりも最大3.5%p,26%の精度向上が期待できる。
関連論文リスト
- FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - DyRA: Portable Dynamic Resolution Adjustment Network for Existing Detectors [0.669087470775851]
本稿では,既存の検出器に画像特異的なスケールファクタを提供する動的解像度調整ネットワークDyRAを紹介する。
ロス関数は、スケールのための異なるサイズのオブジェクトの異なる目的に対する精度低下を最小限に抑えるために考案された。
論文 参考訳(メタデータ) (2023-11-28T07:52:41Z) - ResFormer: Scaling ViTs with Multi-Resolution Training [100.01406895070693]
私たちはResFormerを紹介します。ResFormerは、広く、ほとんど目に見えない、テストの解像度でパフォーマンスを改善するフレームワークです。
特にResFormerは、異なる解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
さらに、ResFormerは柔軟性があり、セマンティックセグメンテーション、オブジェクト検出、ビデオアクション認識に容易に拡張できることを示す。
論文 参考訳(メタデータ) (2022-12-01T18:57:20Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Scale-arbitrary Invertible Image Downscaling [17.67415618760949]
本稿では,任意のスケールファクタを持つHR画像のダウンスケールを実現するために,AIDN(Scale-Arbitrary Invertible Image Downscaling Network)を提案する。
我々のAIDNは、任意の整数と非整数のスケールファクタの両方で、可逆的なダウンスケーリングの最高性能を達成する。
論文 参考訳(メタデータ) (2022-01-29T12:27:52Z) - Characterizing and Taming Resolution in Convolutional Neural Networks [4.412616624011115]
画像解像度は、コンピュータビジョンモデル推論の精度、計算量、記憶量、帯域幅コストに大きな影響を及ぼす。
本稿では,画像解像度,画質,畳み込みニューラルネットワーク演算子のシステマティックかつ自動チューニングによる精度と効率のトレードオフについて検討する。
そこで本稿では,静的に解像度を選択する必要をなくす動的解決機構を提案する。
論文 参考訳(メタデータ) (2021-10-28T00:08:23Z) - Resolution Switchable Networks for Runtime Efficient Image Recognition [46.09537029831355]
本稿では,推論時に画像解像度を切り替えることのできる,単一の畳み込みニューラルネットワークを訓練する一般的な手法を提案する。
提案手法でトレーニングしたネットワークは、Resolvation Switchable Networks (RS-Nets) と呼ばれる。
論文 参考訳(メタデータ) (2020-07-19T02:12:59Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。