論文の概要: Self-Supervised Learning of a Biologically-Inspired Visual Texture Model
- arxiv url: http://arxiv.org/abs/2006.16976v1
- Date: Tue, 30 Jun 2020 17:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 05:39:51.367543
- Title: Self-Supervised Learning of a Biologically-Inspired Visual Texture Model
- Title(参考訳): 生体インスパイアされた視覚テクスチャモデルの自己教師あり学習
- Authors: Nikhil Parthasarathy and Eero P. Simoncelli
- Abstract要約: 低次元特徴空間における視覚的テクスチャを表現するモデルを開発する。
霊長類視覚野のアーキテクチャにインスパイアされたモデルは、指向性線形フィルタの第1段階を使用する。
学習モデルは,前訓練した深部CNNに比べて,霊長類V2で記録された神経集団のテクスチャ応答に強い類似性を示す。
- 参考スコア(独自算出の注目度): 6.931125029302013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a model for representing visual texture in a low-dimensional
feature space, along with a novel self-supervised learning objective that is
used to train it on an unlabeled database of texture images. Inspired by the
architecture of primate visual cortex, the model uses a first stage of oriented
linear filters (corresponding to cortical area V1), consisting of both
rectified units (simple cells) and pooled phase-invariant units (complex
cells). These responses are processed by a second stage (analogous to cortical
area V2) consisting of convolutional filters followed by half-wave
rectification and pooling to generate V2 'complex cell' responses. The second
stage filters are trained on a set of unlabeled homogeneous texture images,
using a novel contrastive objective that maximizes the distance between the
distribution of V2 responses to individual images and the distribution of
responses across all images. When evaluated on texture classification, the
trained model achieves substantially greater data-efficiency than a variety of
deep hierarchical model architectures. Moreover, we show that the learned model
exhibits stronger representational similarity to texture responses of neural
populations recorded in primate V2 than pre-trained deep CNNs.
- Abstract(参考訳): 低次元特徴空間で視覚テクスチャを表現するためのモデルを開発し、テクスチャ画像のラベルのないデータベース上で学習するための新しい自己教師あり学習目標を開発した。
霊長類視覚野のアーキテクチャにインスパイアされたこのモデルは、配向線形フィルターの第1段階(皮質領域V1に対応する)を使用し、整流された単位(単純細胞)とプールされた位相不変単位(複合細胞)の両方からなる。
これらの反応は第2段階(皮質領域V2)で処理され、畳み込みフィルターと半波整流とプールによりV2の「複雑な細胞」反応が生成される。
第2段階のフィルタは、各画像に対するv2応答の分布と全画像に対する応答の分布との間の距離を最大化する新しいコントラスト目的を用いて、ラベルのない均質なテクスチャ画像のセットで訓練される。
テクスチャ分類で評価すると、トレーニングされたモデルは様々な階層型モデルアーキテクチャよりもデータ効率が大幅に向上する。
さらに, 学習モデルでは, 事前学習した深部CNNよりも, 霊長類V2で記録された神経集団のテクスチャ応答に強い類似性を示した。
関連論文リスト
- Layerwise complexity-matched learning yields an improved model of cortical area V2 [12.861402235256207]
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドを訓練した。
我々は,連続する層に独立して機能する自己指導型トレーニング手法を開発した。
本モデルは, 霊長類領域V2における選択性特性と神経活動に適合していることが示唆された。
論文 参考訳(メタデータ) (2023-12-18T18:37:02Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Top-down inference in an early visual cortex inspired hierarchical
Variational Autoencoder [0.0]
我々は変分オートエンコーダの進歩を利用して、自然画像に基づいて訓練された疎い符号化階層型VAEを用いて、初期視覚野を調査する。
一次および二次視覚皮質に見られるものと類似した表現は、軽度の誘導バイアスの下で自然に現れる。
生成モデルを用いた2つの計算のシグネチャに対して,ニューロサイエンスに着想を得た認識モデルの選択が重要であることを示す。
論文 参考訳(メタデータ) (2022-06-01T12:21:58Z) - Deep Learning Based Automated COVID-19 Classification from Computed
Tomography Images [0.0]
本稿では,画像分類のための畳み込みニューラルネットワーク(CNN)モデルを提案する。
本研究では,2次元CNNモデルを用いて2次元CTスキャン画像のスライスを簡易に分類する手法を提案する。
アーキテクチャの単純さにもかかわらず、提案モデルでは、同じ画像のデータセット上で、最先端技術を上回る定量的結果が得られた。
論文 参考訳(メタデータ) (2021-11-22T13:35:10Z) - Emergence of Lie symmetries in functional architectures learned by CNNs [63.69764116066748]
本研究では,自然画像の学習において,畳み込みニューラルネットワーク(CNN)の初期層における対称性の自発的発達について検討する。
私たちのアーキテクチャは、生体視覚システムの初期段階を模倣するために構築されています。
論文 参考訳(メタデータ) (2021-04-17T13:23:26Z) - Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE [74.29384873537587]
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
論文 参考訳(メタデータ) (2021-03-18T05:10:49Z) - Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文 参考訳(メタデータ) (2020-06-14T19:34:44Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。