論文の概要: Spatial-Scale Aligned Network for Fine-Grained Recognition
- arxiv url: http://arxiv.org/abs/2001.01211v1
- Date: Sun, 5 Jan 2020 11:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 08:02:23.431637
- Title: Spatial-Scale Aligned Network for Fine-Grained Recognition
- Title(参考訳): 細粒度認識のための空間規模アライメントネットワーク
- Authors: Lizhao Gao, Haihua Xu, Chong Sun, Junling Liu, Yu-Wing Tai
- Abstract要約: 精密な視覚認識のための既存のアプローチは、境界領域に基づく表現の学習に重点を置いている。
本稿では,空間スケールアライメントネットワーク(SSANET)を提案する。
- 参考スコア(独自算出の注目度): 42.71878867504503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for fine-grained visual recognition focus on learning
marginal region-based representations while neglecting the spatial and scale
misalignments, leading to inferior performance. In this paper, we propose the
spatial-scale aligned network (SSANET) and implicitly address misalignments
during the recognition process. Especially, SSANET consists of 1) a
self-supervised proposal mining formula with Morphological Alignment
Constraints; 2) a discriminative scale mining (DSM) module, which exploits the
feature pyramid via a circulant matrix, and provides the Fourier solver for
fast scale alignments; 3) an oriented pooling (OP) module, that performs the
pooling operation in several pre-defined orientations. Each orientation defines
one kind of spatial alignment, and the network automatically determines which
is the optimal alignments through learning. With the proposed two modules, our
algorithm can automatically determine the accurate local proposal regions and
generate more robust target representations being invariant to various
appearance variances. Extensive experiments verify that SSANET is competent at
learning better spatial-scale invariant target representations, yielding
superior performance on the fine-grained recognition task on several
benchmarks.
- Abstract(参考訳): 視覚の微粒化のための既存のアプローチは、空間的・スケール的なミスアライメントを無視しながら、限界領域に基づく表現を学習することに焦点を当て、性能が劣る。
本稿では,空間スケールアライメントネットワーク(SSANET)を提案する。
特にSSANETは
1) 形態的アライメント制約のある自己監督型提案鉱業公式
2)DSMモジュールは,循環行列を介して特徴ピラミッドを利用して,高速なスケールアライメントのためのフーリエソルバを提供する。
3) いくつかの事前定義された方向でプール操作を実行する指向型プール(op)モジュール。
各方向は1種類の空間的アライメントを定義し、ネットワークは学習を通じて最適なアライメントを自動決定する。
提案する2つのモジュールにより,提案アルゴリズムは精度の高い局所的提案領域を自動的に決定し,より堅牢なターゲット表現を生成することができる。
大規模な実験により、SSANETはより優れた空間スケールの不変なターゲット表現を学習する能力があり、いくつかのベンチマークでよりきめ細かな認識タスクにおいて優れた性能が得られることが検証された。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Distribution Regularized Self-Supervised Learning for Domain Adaptation
of Semantic Segmentation [3.284878354988896]
本稿では,セマンティックセグメンテーションの自己教師付きドメイン適応のための画素レベル分布正規化スキーム(DRSL)を提案する。
典型的な環境では、分類損失はセマンティックセグメンテーションモデルにクラス間のバリエーションをキャプチャする表現を欲しがらせるように強制する。
クラス認識型マルチモーダル分布学習により,ピクセルレベルのクラス内変動を捉える。
論文 参考訳(メタデータ) (2022-06-20T09:52:49Z) - Learning towards Synchronous Network Memorizability and Generalizability
for Continual Segmentation across Multiple Sites [52.84959869494459]
臨床実践では、複数のサイトから連続的なデータストリームを継続的に学習するために、セグメンテーションネットワークが必要であることが多い。
既存の方法は、通常、以前のサイトのネットワーク記憶可能性や、目に見えないサイトの一般化可能性に制限される。
本稿では,SMG学習フレームワークの提案により,同期記憶可能性と一般化可能性の問題に取り組むことを目的とする。
論文 参考訳(メタデータ) (2022-06-14T13:04:36Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Align Deep Features for Oriented Object Detection [40.28244152216309]
本稿では、FAM(Feature Alignment Module)とODM(Oriented Detection Module)の2つのモジュールからなる単発アライメントネットワーク(S$2$A-Net)を提案する。
FAMは、アンカー・リファインメント・ネットワークで高品質なアンカーを生成し、アンカーボックスに応じた畳み込み特徴と、新しいアライメント・コンボリューション・コンボリューションとを適応的に調整することができる。
ODMは、まず、向き情報を符号化するためにアクティブな回転フィルタを採用し、次に、分類スコアとローカライゼーション精度の不整合を軽減するために、向きに敏感で方向不変な特徴を生成する。
論文 参考訳(メタデータ) (2020-08-21T09:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。