論文の概要: Learning Compositional Representations for Effective Low-Shot
Generalization
- arxiv url: http://arxiv.org/abs/2204.08090v1
- Date: Sun, 17 Apr 2022 21:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:02:33.931880
- Title: Learning Compositional Representations for Effective Low-Shot
Generalization
- Title(参考訳): 効果的な低ショット一般化のための学習構成表現
- Authors: Samarth Mishra, Pengkai Zhu, Venkatesh Saligrama
- Abstract要約: 本稿では、人間の認知に触発された画像符号化手法である、部分合成(RPC)としての認識を提案する。
RPCは、画像をまずそれらを正常な部分に分解し、次に各部分を少数のプロトタイプの混合体としてエンコードすることで、画像をエンコードする。
このタイプの学習は、低ショットの一般化タスクにおいて、深層畳み込みネットワークが直面するハードルを克服することができる。
- 参考スコア(独自算出の注目度): 45.952867474500145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Recognition as Part Composition (RPC), an image encoding approach
inspired by human cognition. It is based on the cognitive theory that humans
recognize complex objects by components, and that they build a small compact
vocabulary of concepts to represent each instance with. RPC encodes images by
first decomposing them into salient parts, and then encoding each part as a
mixture of a small number of prototypes, each representing a certain concept.
We find that this type of learning inspired by human cognition can overcome
hurdles faced by deep convolutional networks in low-shot generalization tasks,
like zero-shot learning, few-shot learning and unsupervised domain adaptation.
Furthermore, we find a classifier using an RPC image encoder is fairly robust
to adversarial attacks, that deep neural networks are known to be prone to.
Given that our image encoding principle is based on human cognition, one would
expect the encodings to be interpretable by humans, which we find to be the
case via crowd-sourcing experiments. Finally, we propose an application of
these interpretable encodings in the form of generating synthetic attribute
annotations for evaluating zero-shot learning methods on new datasets.
- Abstract(参考訳): 本稿では,人間の認識に触発された画像符号化手法である認識 as part composition (rpc)を提案する。
これは、人間が複雑な物体を構成要素で認識し、各インスタンスを表現するための小さなコンパクトな概念語彙を構築するという認知理論に基づいている。
RPCは、画像をまずそれらを正常な部分に分解し、次に各部分を少数のプロトタイプの混合体としてエンコードし、それぞれが特定の概念を表す。
人間の認知にインスパイアされたこの種の学習は、ゼロショット学習、少数ショット学習、教師なしドメイン適応のような低ショットの一般化タスクにおいて、深層畳み込みネットワークが直面するハードルを克服することができる。
さらに, RPCイメージエンコーダを用いた分類器は, 敵攻撃に対してかなり頑健であり, ディープニューラルネットワークが困難であることが知られている。
画像エンコーディングの原理が人間の認知に基づいていることを考えれば、そのエンコーディングは人間によって解釈されることが期待できる。
最後に,新しいデータセット上でのゼロショット学習法を評価するために,合成属性アノテーションの生成という形で,これらの解釈可能なエンコーディングの応用を提案する。
関連論文リスト
- Saliency Suppressed, Semantics Surfaced: Visual Transformations in Neural Networks and the Brain [0.0]
私たちは神経科学からインスピレーションを得て、ニューラルネットワークが情報を低(視覚的満足度)で高(セマンティックな類似性)の抽象レベルでエンコードする方法について光を当てています。
ResNetsは、オブジェクト分類の目的によって訓練された場合、ViTsよりも唾液度情報に敏感であることが分かりました。
我々は、セマンティックエンコーディングがAIと人間の視覚知覚を協調させる重要な要素であることを示し、サリエンシ抑制は非脳的な戦略であることを示した。
論文 参考訳(メタデータ) (2024-04-29T15:05:42Z) - Exploring Compressed Image Representation as a Perceptual Proxy: A Study [1.0878040851638]
本稿では,解析変換をオブジェクト分類タスクと共同で訓練する,エンドツーエンドの学習画像圧縮を提案する。
本研究は、圧縮された潜在表現が、カスタマイズされたDNNベースの品質指標に匹敵する精度で人間の知覚距離判定を予測できることを確認した。
論文 参考訳(メタデータ) (2024-01-14T04:37:17Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Neural Photofit: Gaze-based Mental Image Reconstruction [25.67771238116104]
我々は、人間の固定を利用して、人が考えている画像を視覚的にフォトフィット(顔複合体)にデコードする新しい方法を提案する。
提案手法は,3つのニューラルネットワーク – エンコーダ,スコアリングネットワーク,デコーダ – を組み合わせる。
本手法は平均ベースライン予測器を著しく上回り,視覚的に可視であり,観察者の心像に近いフォトフィットを復号できることを示す。
論文 参考訳(メタデータ) (2021-08-17T09:11:32Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Fast Concept Mapping: The Emergence of Human Abilities in Artificial
Neural Networks when Learning Embodied and Self-Supervised [0.0]
本稿では,人工エージェントが自己教師による探索を通じて,まず模擬世界で学習する仕組みを提案する。
我々は、ニューロンの相関した発火パターンを用いて意味概念を定義し、検出する高速概念マッピングと呼ばれる手法を用いる。
論文 参考訳(メタデータ) (2021-02-03T17:19:49Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。