論文の概要: Emergent Properties of Foveated Perceptual Systems
- arxiv url: http://arxiv.org/abs/2006.07991v3
- Date: Tue, 22 Jun 2021 21:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:45:51.642004
- Title: Emergent Properties of Foveated Perceptual Systems
- Title(参考訳): 発芽知覚系の創発的特性
- Authors: Arturo Deza and Talia Konkle
- Abstract要約: この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
- 参考スコア(独自算出の注目度): 3.3504365823045044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to characterize the representational impact that
foveation operations have for machine vision systems, inspired by the foveated
human visual system, which has higher acuity at the center of gaze and
texture-like encoding in the periphery. To do so, we introduce models
consisting of a first-stage \textit{fixed} image transform followed by a
second-stage \textit{learnable} convolutional neural network, and we varied the
first stage component. The primary model has a foveated-textural input stage,
which we compare to a model with foveated-blurred input and a model with
spatially-uniform blurred input (both matched for perceptual compression), and
a final reference model with minimal input-based compression. We find that: 1)
the foveated-texture model shows similar scene classification accuracy as the
reference model despite its compressed input, with greater i.i.d.
generalization than the other models; 2) the foveated-texture model has greater
sensitivity to high-spatial frequency information and greater robustness to
occlusion, w.r.t the comparison models; 3) both the foveated systems, show a
stronger center image-bias relative to the spatially-uniform systems even with
a weight sharing constraint. Critically, these results are preserved over
different classical CNN architectures throughout their learning dynamics.
Altogether, this suggests that foveation with peripheral texture-based
computations yields an efficient, distinct, and robust representational format
of scene information, and provides symbiotic computational insight into the
representational consequences that texture-based peripheral encoding may have
for processing in the human visual system, while also potentially inspiring the
next generation of computer vision models via spatially-adaptive computation.
Code + Data available here: https://github.com/ArturoDeza/EmergentProperties
- Abstract(参考訳): この研究の目的は、視線の中心に高い視力を持ち、周囲にテクスチャのようなエンコーディングを持つフォベーションの視覚系に触発された、マシンビジョンシステムに対するフォベーション操作が持つ表現的影響を特徴付けることである。
そこで我々は,第1ステージの \textit{fixed} 画像変換と第2ステージの \textit{learnable} 畳み込みニューラルネットワークからなるモデルを導入し,第1ステージの成分を変動させた。
主モデルは、フェーブ付き音声入力モデルと、フェーブ付き音声入力モデルと、空間的に一様にぼやけた入力モデル(どちらも知覚的圧縮と一致する)と、最小の入力ベース圧縮モデルとを比較した。
私たちはそれを見つけました
1)foveated-textureモデルは,その圧縮入力にもかかわらず,参照モデルと類似したシーン分類精度を示し,他のモデルよりも大きなi.i.d.一般化を示す。
2)foveated-textureモデルは,高空間周波数情報に対する感度が高く,咬合に対するロバスト性が高い。
3)両システムとも,重み共有制約があっても,空間的一様系に対して中心像バイアスが強くなる。
批判的に、これらの結果は学習力学を通して、様々な古典的CNNアーキテクチャに保存される。
このことは、周辺テクスチャベースの計算によるファベーションは、シーン情報の効率的で独特で堅牢な表現形式をもたらし、テクスチャベースの周辺エンコーディングが人間の視覚システムで処理するために持つ表現結果に関する共生的な計算的洞察を提供するとともに、空間適応型計算によって次世代のコンピュータビジョンモデルに刺激を与える可能性を示唆している。
コード+データはここで利用可能: https://github.com/arturodeza/emergentproperties
関連論文リスト
- pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System [0.716879432974126]
本稿では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。
本研究の目的は、訓練された浅部畳み込みモデルを用いて、外側原核(LGN)領域の機能を近似することである。
pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
論文 参考訳(メタデータ) (2024-09-20T16:33:01Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Top-down inference in an early visual cortex inspired hierarchical
Variational Autoencoder [0.0]
我々は変分オートエンコーダの進歩を利用して、自然画像に基づいて訓練された疎い符号化階層型VAEを用いて、初期視覚野を調査する。
一次および二次視覚皮質に見られるものと類似した表現は、軽度の誘導バイアスの下で自然に現れる。
生成モデルを用いた2つの計算のシグネチャに対して,ニューロサイエンスに着想を得た認識モデルの選択が重要であることを示す。
論文 参考訳(メタデータ) (2022-06-01T12:21:58Z) - FoveaTer: Foveated Transformer for Image Classification [8.207403859762044]
本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。
本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
論文 参考訳(メタデータ) (2021-05-29T01:54:33Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z) - Self-Supervised Learning of a Biologically-Inspired Visual Texture Model [6.931125029302013]
低次元特徴空間における視覚的テクスチャを表現するモデルを開発する。
霊長類視覚野のアーキテクチャにインスパイアされたモデルは、指向性線形フィルタの第1段階を使用する。
学習モデルは,前訓練した深部CNNに比べて,霊長類V2で記録された神経集団のテクスチャ応答に強い類似性を示す。
論文 参考訳(メタデータ) (2020-06-30T17:12:09Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。