論文の概要: Localizing Interpretable Multi-scale informative Patches Derived from
Media Classification Task
- arxiv url: http://arxiv.org/abs/2002.03737v2
- Date: Fri, 17 Apr 2020 08:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:39:13.678987
- Title: Localizing Interpretable Multi-scale informative Patches Derived from
Media Classification Task
- Title(参考訳): メディア分類タスクによる解釈可能なマルチスケール情報パッチのローカライズ
- Authors: Chuanguang Yang, Zhulin An, Xiaolong Hu, Hui Zhu, Yongjun Xu
- Abstract要約: 我々は、慎重に設計されたRFと線形空間アグリゲーションを備えた解釈可能なAnchorNetを構築した。
ローカライズされたパッチは、元の入力の最もセマンティックスやエビデンスを確実に保持できることを示す。
- 参考スコア(独自算出の注目度): 12.447143226347922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep convolutional neural networks (CNN) always depend on wider receptive
field (RF) and more complex non-linearity to achieve state-of-the-art
performance, while suffering the increased difficult to interpret how relevant
patches contribute the final prediction. In this paper, we construct an
interpretable AnchorNet equipped with our carefully designed RFs and linearly
spatial aggregation to provide patch-wise interpretability of the input media
meanwhile localizing multi-scale informative patches only supervised on
media-level labels without any extra bounding box annotations. Visualization of
localized informative image and text patches show the superior multi-scale
localization capability of AnchorNet. We further use localized patches for
downstream classification tasks across widely applied networks. Experimental
results demonstrate that replacing the original inputs with their patches for
classification can get a clear inference acceleration with only tiny
performance degradation, which proves that localized patches can indeed retain
the most semantics and evidences of the original inputs.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(cnn)は常により広い受容場(rf)とより複雑な非線形性に依存し、最先端のパフォーマンスを達成する一方で、適切なパッチが最終的な予測にどのように寄与するかの解釈が困難になる。
本稿では,注意深い設計を施したrfsと線形空間アグリゲーションを備えた解釈可能なアンカーネットを構築し,入力メディアのパッチワイズ解釈性を提供し,また,追加のバウンディングボックスアノテーションを伴わずにメディアレベルラベル上でのみ監視されたマルチスケール情報パッチをローカライズする。
局所化情報画像とテキストパッチの可視化は、AnchorNetのマルチスケールローカライゼーション能力に優れていることを示している。
我々はさらに,広く適用されたネットワーク上のダウンストリーム分類タスクに,ローカライズパッチを使用する。
実験の結果、元の入力を分類用パッチに置き換えることで、小さな性能劣化だけで明確な推論の加速が得られることが示され、局所化されたパッチが元の入力の最も意味や証拠を確実に保持できることが証明された。
関連論文リスト
- DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - Localizing Semantic Patches for Accelerating Image Classification [12.250230630124758]
まず、AnchorNetと呼ばれる軽量パッチ提案ネットワークを用いて、入力画像上のタスク認識領域をピンポイントする。
次に、より小さな空間冗長性を持つ局所的なセマンティックパッチを一般的な分類ネットワークに供給する。
提案手法は,より少ない推論コストでSOTA動的推論手法より優れる。
論文 参考訳(メタデータ) (2022-06-07T15:01:54Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology
Image Analysis [78.78181964748144]
スライド画像全体(WSI)を分類するための弱教師付きフレームワークを提案する。
WSIは通常、パッチレベルのラベルを持つパッチワイド分類によって処理される。
イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。
論文 参考訳(メタデータ) (2021-09-13T09:10:43Z) - Generalizing RNN-Transducer to Out-Domain Audio via Sparse
Self-Attention Layers [7.025709586759655]
リカレントニューラルネットワークトランスデューサ(RNN-T)は、有望なエンドツーエンド音声認識フレームワークである。
Conformerは、その畳み込み層と自己認識層を通じて、ローカル・グローバルコンテキスト情報を効果的にモデル化することができる。
Conformer RNN-Tのドメインミスマッチ問題は、まだ十分に研究されていない。
論文 参考訳(メタデータ) (2021-08-22T08:06:15Z) - Fast and Accurate Normal Estimation for Point Cloud via Patch Stitching [12.559091712749279]
非構造点雲に対するマルチパッチ縫合を用いた効果的な正規推定法を提案する。
本手法は,従来の手法に比べて計算コストの低減とノイズに対する堅牢性の向上により,SOTA結果を達成した。
論文 参考訳(メタデータ) (2021-03-30T04:30:35Z) - Context-aware Attentional Pooling (CAP) for Fine-grained Visual
Classification [2.963101656293054]
深層畳み込みニューラルネットワーク(CNN)は、画像認識のための識別対象ポーズと部品情報をマイニングする強力な能力を示しています。
サブピクセル勾配による微妙な変化を効果的にとらえる新しいコンテキスト認識型注意プーリング(CAP)を提案する。
我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2021-01-17T10:15:02Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - Learning to segment from misaligned and partial labels [0.0]
アーバン以外の多くの設定は、正確なセグメンテーションに必要な基盤構造を欠いている。
OpenStreetMaps (OSM)のようなオープンソースのインフラストラクチャアノテーションがこの問題を代表している。
本稿では,不整合アノテーションと欠落アノテーションを付与した画素画像分割を改良した,新規で一般化可能な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-27T06:02:58Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。