論文の概要: Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer
- arxiv url: http://arxiv.org/abs/2508.14187v1
- Date: Tue, 19 Aug 2025 18:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.242136
- Title: Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer
- Title(参考訳): 潜時深度平衡カノニカライザーを用いた局所スケールの等価性
- Authors: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh,
- Abstract要約: モデルの局所スケール等式を改善するために,DEC(Deep equilibrium Canonicalizer)を提案する。
DECは既存のネットワークアーキテクチャに簡単に組み込むことができ、事前訓練されたモデルに適応することができる。
競合するImageNetベンチマークでは、DECはモデル性能と局所スケールの整合性の両方を改善している。
- 参考スコア(独自算出の注目度): 10.546719498732102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scale variation is a fundamental challenge in computer vision. Objects of the same class can have different sizes, and their perceived size is further affected by the distance from the camera. These variations are local to the objects, i.e., different object sizes may change differently within the same image. To effectively handle scale variations, we present a deep equilibrium canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can be easily incorporated into existing network architectures and can be adapted to a pre-trained model. Notably, we show that on the competitive ImageNet benchmark, DEC improves both model performance and local scale consistency across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our code is available at https://github.com/ashiq24/local-scale-equivariance.
- Abstract(参考訳): スケールの変動はコンピュータビジョンにおける根本的な課題である。
同じクラスのオブジェクトはサイズが異なり、そのサイズはカメラからの距離によってさらに影響を受ける。
これらのバリエーションは、オブジェクトに局所的、すなわち、異なるオブジェクトサイズが同じイメージ内で異なるように変化する可能性がある。
スケールの変動を効果的に処理するために,モデルの局所スケール等式を改善するために,DEC(Deep equilibrium Canonicalizer)を提案する。
DECは既存のネットワークアーキテクチャに簡単に組み込むことができ、事前訓練されたモデルに適応することができる。
特に、競合するImageNetベンチマークにおいて、DECは、トレーニング済みの4つの一般的なディープネット(例えば、ViT、DeiT、Swin、BEiT)でモデル性能と局所スケールの整合性を改善する。
私たちのコードはhttps://github.com/ashiq24/local-scale-equivariance.comで利用可能です。
関連論文リスト
- Scale-Equivariant Deep Learning for 3D Data [44.52688267348063]
畳み込みニューラルネットワーク(CNN)は、画像の位置に関係なく物体を認識する。
本稿では,3次元データに対するスケール・等価な畳み込みネットワーク層を提案する。
本実験は,3次元医用画像解析の尺度等式化における提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2023-04-12T13:56:12Z) - Self-similarity Driven Scale-invariant Learning for Weakly Supervised
Person Search [66.95134080902717]
自己相似性駆動型スケール不変学習(SSL)という新しいワンステップフレームワークを提案する。
本稿では,ネットワークを前景と学習スケール不変の機能に集中させるための,マルチスケール・エクステンプラー・ブランチを提案する。
PRWおよびCUHK-SYSUデータベースの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-25T04:48:11Z) - Just a Matter of Scale? Reevaluating Scale Equivariance in Convolutional
Neural Networks [3.124871781422893]
畳み込みネットワークはスケールの変動に不変ではなく、異なる大きさのオブジェクトに一般化できない。
重みを並列に共有した再スケールカーネルを多数適用し,最も適切なカーネルを選択するモデル群を新たに導入する。
STIRにおける実験結果から,既存の手法と提案手法の両方が,標準的な畳み込みよりもスケール全体の一般化を向上できることが示唆された。
論文 参考訳(メタデータ) (2022-11-18T15:27:05Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - ScaleNet: A Shallow Architecture for Scale Estimation [25.29257353644138]
我々は、画像間のスケールを予測するために、拡張畳み込みと自己および相互相関レイヤを利用する新しいアーキテクチャであるScaleNetを設計する。
本研究では, カメラポーズ推定, 3次元再構成, あるいは密度幾何マッチングを改善するために, 局所的特徴と密接な通信網を組み合わせる方法を示す。
論文 参考訳(メタデータ) (2021-12-09T11:32:01Z) - Scale Equivariance Improves Siamese Tracking [1.7188280334580197]
シームズトラッカーは、トラッキングをフレーム内のテンプレートと候補領域間の類似度推定に変換する。
非翻訳同変アーキテクチャは、トレーニング中に位置バイアスを引き起こす。
提案するSE-SiamFCは,レシピに従って構築されたSiamFCのスケール・等価な変種である。
論文 参考訳(メタデータ) (2020-07-17T16:55:51Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。