論文の概要: CLUENet: Cluster Attention Makes Neural Networks Have Eyes
- arxiv url: http://arxiv.org/abs/2512.06345v1
- Date: Sat, 06 Dec 2025 08:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.31298
- Title: CLUENet: Cluster Attention Makes Neural Networks Have Eyes
- Title(参考訳): CLUENet: クラスタの注意がニューラルネットワークに目を向ける
- Authors: Xiangshuai Song, Jun-Jie Huang, Tianrui Liu, Ke Liang, Chang Tang,
- Abstract要約: クラスタリングパラダイムは、有望な解釈可能性と柔軟なセマンティックモデリングを提供する。
CLUster attEntion Network (CLUENet) を提案する。
- 参考スコア(独自算出の注目度): 25.43808812298579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of convolution- and attention-based models in vision tasks, their rigid receptive fields and complex architectures limit their ability to model irregular spatial patterns and hinder interpretability, therefore posing challenges for tasks requiring high model transparency. Clustering paradigms offer promising interpretability and flexible semantic modeling, but suffer from limited accuracy, low efficiency, and gradient vanishing during training. To address these issues, we propose CLUster attEntion Network (CLUENet), an transparent deep architecture for visual semantic understanding. We propose three key innovations include (i) a Global Soft Aggregation and Hard Assignment with a Temperature-Scaled Cosin Attention and gated residual connections for enhanced local modeling, (ii) inter-block Hard and Shared Feature Dispatching, and (iii) an improved cluster pooling strategy. These enhancements significantly improve both classification performance and visual interpretability. Experiments on CIFAR-100 and Mini-ImageNet demonstrate that CLUENet outperforms existing clustering methods and mainstream visual models, offering a compelling balance of accuracy, efficiency, and transparency.
- Abstract(参考訳): 視覚タスクにおける畳み込みと注意に基づくモデルの成功にもかかわらず、その厳密な受容場と複雑なアーキテクチャは不規則な空間パターンをモデル化し、解釈可能性を妨げる能力を制限する。
クラスタリングのパラダイムは、有望な解釈可能性と柔軟なセマンティックモデリングを提供するが、トレーニング中に限られた精度、低い効率、勾配が消える。
これらの問題を解決するために,視覚的意味理解のための透過的な深層アーキテクチャであるCLUster attEntion Network (CLUENet)を提案する。
私たちは3つの重要なイノベーションを提案します。
一 局所モデル強化のための温度スケールコサイン注意及びゲート残差接続付きグローバルソフトアグリゲーション及びハードアグリゲーション
(二)ブロック間ハード及び共有機能分散
(iii) クラスタプール戦略の改善。
これらの拡張は、分類性能と視覚的解釈可能性の両方を著しく改善する。
CIFAR-100とMini-ImageNetの実験では、CLUENetは既存のクラスタリング手法や主流のビジュアルモデルよりも優れており、精度、効率、透明性の優れたバランスを提供している。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Hierarchical Graph Feature Enhancement with Adaptive Frequency Modulation for Visual Recognition [6.580655899524989]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクにおいて強力な性能を示している。
構造認識と特徴表現を両立させるため,CNNにグラフベース推論を統合する新しいフレームワークを提案する。
提案したHGFEモジュールは軽量でエンドツーエンドのトレーニングが可能で、標準のCNNバックボーンネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-15T14:19:50Z) - LeMoRe: Learn More Details for Lightweight Semantic Segmentation [48.81126061219231]
計算効率と表現の忠実さのバランスをとるために、明示的および暗黙的なモデリングを相乗化することによって効率的なパラダイムを導入する。
提案手法は、明確にモデル化されたビューと暗黙的に推論された中間表現とをうまく組み合わせ、グローバルな依存関係を効率的に取得する。
論文 参考訳(メタデータ) (2025-05-29T04:55:10Z) - LSNet: See Large, Focus Small [67.05569159984691]
我々は,大カーネル認識と小カーネル集約を組み合わせたLS(textbfLarge-textbfSmall)畳み込みを導入する。
LSNetは、様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を実現する。
論文 参考訳(メタデータ) (2025-03-29T16:00:54Z) - Enhancing Interpretability Through Loss-Defined Classification Objective in Structured Latent Spaces [5.2542280870644715]
本稿では,高度な距離メトリック学習を教師付き分類タスクに統合する新しいアプローチであるLatent Boostを紹介する。
Latent Boostは、より高いシルエットスコアで示されるように、分類解釈性を改善し、トレーニング収束を加速する。
論文 参考訳(メタデータ) (2024-12-11T16:25:17Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Grid Jigsaw Representation with CLIP: A New Perspective on Image Clustering [33.05984601411495]
画像クラスタリングの新たな視点として,事前学習型Grid Jigsaw Representation (pGJR)を提案する。
人間のジグソーパズル処理に触発されて、従来のジグソー学習を改良し、画像構造をより逐次的かつ漸進的に理解する。
実験により,事前学習したモデルを特徴抽出器として使用することにより,クラスタリングの収束を加速できることが実証された。
論文 参考訳(メタデータ) (2023-10-27T03:07:05Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。