論文の概要: PICASO: Permutation-Invariant Cascaded Attentional Set Operator
- arxiv url: http://arxiv.org/abs/2107.08305v1
- Date: Sat, 17 Jul 2021 19:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:01:26.426036
- Title: PICASO: Permutation-Invariant Cascaded Attentional Set Operator
- Title(参考訳): PICASO: Permutation-invariant Cascaded Attentional Set Operator
- Authors: Samira Zare, Hien Van Nguyen
- Abstract要約: セットインプット深層ネットワークのための変分不変カスケードアテンショナル・セット演算子 (PICASO) を提案する。
提案したオペレータはスタンドアロンモジュールであり、さまざまな機械学習タスクに適応して拡張することができる。
我々は, PICASO の有用性を, (i) クラスタリング, (ii) 新たな視点による画像分類, (iii) 画像異常検出, (iv) 状態予測の4つのシナリオで示す。
- 参考スコア(独自算出の注目度): 6.845913709297514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Set-input deep networks have recently drawn much interest in computer vision
and machine learning. This is in part due to the increasing number of important
tasks such as meta-learning, clustering, and anomaly detection that are defined
on set inputs. These networks must take an arbitrary number of input samples
and produce the output invariant to the input set permutation. Several
algorithms have been recently developed to address this urgent need. Our paper
analyzes these algorithms using both synthetic and real-world datasets, and
shows that they are not effective in dealing with common data variations such
as image translation or viewpoint change. To address this limitation, we
propose a permutation-invariant cascaded attentional set operator (PICASO). The
gist of PICASO is a cascade of multihead attention blocks with dynamic
templates. The proposed operator is a stand-alone module that can be adapted
and extended to serve different machine learning tasks. We demonstrate the
utilities of PICASO in four diverse scenarios: (i) clustering, (ii) image
classification under novel viewpoints, (iii) image anomaly detection, and (iv)
state prediction. PICASO increases the SmallNORB image classification accuracy
with novel viewpoints by about 10% points. For set anomaly detection on CelebA
dataset, our model improves the areas under ROC and PR curves dataset by about
22% and 10%, respectively. For the state prediction on CLEVR dataset, it
improves the AP by about 40%.
- Abstract(参考訳): セット入力型ディープネットワークは最近、コンピュータビジョンと機械学習に大きな関心を寄せている。
これは部分的には、メタ学習、クラスタリング、およびセット入力で定義された異常検出などの重要なタスクの増加によるものだ。
これらのネットワークは任意の数の入力サンプルを取得し、入力セットの置換に不変な出力を生成する必要がある。
この緊急ニーズに対応するために、いくつかのアルゴリズムが最近開発された。
本稿では,これらのアルゴリズムを合成データと実世界データの両方を用いて解析し,画像翻訳や視点変化といった一般的なデータ変動を扱うには有効ではないことを示す。
この制限に対処するため、置換不変カスケード型注意セット演算子(PICASO)を提案する。
PICASOのジストは動的テンプレートを持つマルチヘッドアテンションブロックのカスケードである。
提案したオペレータはスタンドアロンモジュールであり、さまざまな機械学習タスクに適応して拡張することができる。
我々は, PICASO の有用性を, (i) クラスタリング, (ii) 新たな視点による画像分類, (iii) 画像異常検出, (iv) 状態予測の4つのシナリオで示す。
PICASOは、新しい視点でSmallNORB画像分類の精度を約10%向上させる。
celebaデータセットの異常検出には,roc と pr 曲線のデータセットの面積をそれぞれ約 22% と 10% 改善する。
CLEVRデータセットの状態予測では、APを約40%改善する。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Hierarchical Convolutional Neural Network with Feature Preservation and
Autotuned Thresholding for Crack Detection [5.735035463793008]
ドローンの画像はインフラ表面の欠陥の自動検査にますます使われている。
本稿では,階層型畳み込みニューラルネットワークを用いた深層学習手法を提案する。
提案手法は, 道路, 橋, 舗装の表面ひび割れの同定に応用されている。
論文 参考訳(メタデータ) (2021-04-21T13:07:58Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Learn to Predict Sets Using Feed-Forward Neural Networks [63.91494644881925]
本稿では、ディープフィードフォワードニューラルネットワークを用いた設定予測の課題に対処する。
未知の置換と基数を持つ集合を予測するための新しい手法を提案する。
関連視覚問題に対する集合定式化の有効性を実証する。
論文 参考訳(メタデータ) (2020-01-30T01:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。