論文の概要: MSPCaps: A Multi-Scale Patchify Capsule Network with Cross-Agreement Routing for Visual Recognition
- arxiv url: http://arxiv.org/abs/2508.16922v1
- Date: Sat, 23 Aug 2025 06:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.253892
- Title: MSPCaps: A Multi-Scale Patchify Capsule Network with Cross-Agreement Routing for Visual Recognition
- Title(参考訳): MSPCaps: 視覚認識のためのクロスアグリメントルーティングを備えたマルチスケールパッチカプセルネットワーク
- Authors: Yudong Hu, Yueju Han, Rui Sun, Jinke Ren,
- Abstract要約: マルチスケール・パッチ・カプセル・ネットワーク(MSPCaps)は,マルチスケールの特徴学習と効率的なカプセル・ルーティングを統合した新しいアーキテクチャである。
提案するMPPCapsは優れたスケーラビリティと優れたロバスト性を実現し,分類精度の点で複数のベースライン法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 9.549109171438394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capsule Network (CapsNet) has demonstrated significant potential in visual recognition by capturing spatial relationships and part-whole hierarchies for learning equivariant feature representations. However, existing CapsNet and variants often rely on a single high-level feature map, overlooking the rich complementary information from multi-scale features. Furthermore, conventional feature fusion strategies (e.g., addition and concatenation) struggle to reconcile multi-scale feature discrepancies, leading to suboptimal classification performance. To address these limitations, we propose the Multi-Scale Patchify Capsule Network (MSPCaps), a novel architecture that integrates multi-scale feature learning and efficient capsule routing. Specifically, MSPCaps consists of three key components: a Multi-Scale ResNet Backbone (MSRB), a Patchify Capsule Layer (PatchifyCaps), and Cross-Agreement Routing (CAR) blocks. First, the MSRB extracts diverse multi-scale feature representations from input images, preserving both fine-grained details and global contextual information. Second, the PatchifyCaps partitions these multi-scale features into primary capsules using a uniform patch size, equipping the model with the ability to learn from diverse receptive fields. Finally, the CAR block adaptively routes the multi-scale capsules by identifying cross-scale prediction pairs with maximum agreement. Unlike the simple concatenation of multiple self-routing blocks, CAR ensures that only the most coherent capsules contribute to the final voting. Our proposed MSPCaps achieves remarkable scalability and superior robustness, consistently surpassing multiple baseline methods in terms of classification accuracy, with configurations ranging from a highly efficient Tiny model (344.3K parameters) to a powerful Large model (10.9M parameters), highlighting its potential in advancing feature representation learning.
- Abstract(参考訳): Capsule Network (CapsNet) は、空間的関係を捉え、一様特徴表現を学習するための部分階層を組み込むことにより、視覚認識において有意義な可能性を証明している。
しかし、既存のCapsNetと変種は、しばしば単一のハイレベルな機能マップに依存し、マルチスケールな機能から豊富な補完情報を見渡す。
さらに, 従来の特徴融合戦略(例えば, 付加・連結)は, 複数スケールの特徴の相違を解消し, 準最適分類性能に繋がる。
これらの制約に対処するため,マルチスケール・パッチ・カプセル・ネットワーク(MSPCaps)を提案する。
具体的には、MSRB(Multi-Scale ResNet Backbone)、Patchify Capsule Layer(PatchifyCaps)、CAR(Cross-Agreement Routing)という3つの重要なコンポーネントで構成されている。
まず、MSRBは入力画像から多様なマルチスケール特徴表現を抽出し、細粒度情報とグローバルコンテキスト情報の両方を保存する。
第2に、PatchifyCapsはこれらのマルチスケール機能を、均一なパッチサイズを使用してプライマリカプセルに分割し、さまざまな受容領域から学習する能力をモデルに装備する。
最後に、CARブロックは、最大一致でクロススケール予測ペアを識別することにより、マルチスケールカプセルを適応的にルーティングする。
複数の自転ブロックの単純な結合とは異なり、CARは最も一貫性のあるカプセルのみが最終投票に寄与することを保証している。
提案するMPPCapsは,高効率なTinyモデル(344.3Kパラメータ)から強力なLargeモデル(10.9Mパラメータ)まで,複数のベースライン手法を一貫して上回り,特徴表現学習の進歩の可能性を浮き彫りにしている。
関連論文リスト
- Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Deep multi-prototype capsule networks [0.3823356975862005]
カプセルネットワーク(Capsule Network)は、画像の部分を特定し、階層的に全体のインスタンス化パラメータを形成するニューラルネットワークの一種である。
本稿では,画像部品のバリエーションを表現するためにカプセルネットワークを誘導するマルチプロトタイプアーキテクチャを提案する。
MNIST, SVHN, C-Cube, CEDAR, MCYT, UTSigのデータセットに対する実験結果から, 提案したモデルが画像分類精度で他のモデルよりも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-04-23T18:37:37Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Edge-aware Feature Aggregation Network for Polyp Segmentation [38.11584888416297]
本研究では,ポリプセグメンテーションのためのエッジ対応特徴集約ネットワーク(EFA-Net)を提案する。
EFA-Netは、ポリプセグメンテーションの性能を高めるために、クロスレベルとマルチスケールの機能を完全に活用することができる。
広く採用されている5つの大腸内視鏡データセットの実験結果から,我々のEFA-Netは,一般化と有効性の観点から,最先端のポリプセグメンテーション法より優れていることが示された。
論文 参考訳(メタデータ) (2023-09-19T11:09:38Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - Progressive Multi-scale Consistent Network for Multi-class Fundus Lesion
Segmentation [28.58972084293778]
提案するプログレッシブ・フィーチャー・フュージョン(PFF)ブロックと動的アテンション・ブロック(DAB)を統合した,プログレッシブ・マルチスケール・一貫性ネットワーク(PMCNet)を提案する。
PFFブロックは、隣接するエンコーディング層からのマルチスケール機能を段階的に統合し、きめ細かい詳細と高レベルのセマンティクスを集約することで、各層の特徴学習を容易にする。
DABは、異なるスケールで融合した特徴から注意深い手がかりを動的に学習するように設計されているため、マルチスケール機能に存在する本質的な矛盾を円滑にすることを目的としている。
論文 参考訳(メタデータ) (2022-05-31T12:10:01Z) - SAR Image Change Detection Based on Multiscale Capsule Network [33.524488071386415]
従来の合成開口レーダ画像変化検出法は、スペックルノイズと変形感度の課題に直面している。
可変画素間の識別情報を抽出するマルチスケールカプセルネットワーク(Ms-CapsNet)を提案する。
提案したMs-CapsNetの有効性は、3つの実SARデータセットで検証される。
論文 参考訳(メタデータ) (2022-01-22T01:30:36Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。