論文の概要: Compositional Factorization of Visual Scenes with Convolutional Sparse Coding and Resonator Networks
- arxiv url: http://arxiv.org/abs/2404.19126v1
- Date: Mon, 29 Apr 2024 22:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 16:03:12.851565
- Title: Compositional Factorization of Visual Scenes with Convolutional Sparse Coding and Resonator Networks
- Title(参考訳): 畳み込みスパース符号化と共振器ネットワークを用いた視覚シーンの構成因子化
- Authors: Christopher J. Kymn, Sonia Mazelet, Annabel Ng, Denis Kleyko, Bruno A. Olshausen,
- Abstract要約: 画像のスパースで潜在的な特徴表現を高次元ベクトルに符号化した視覚的シーン解析と認識システムを提案する。
スパース特徴表現は畳み込みスパース符号化により画像統計から学習され、シーン解析は共振器ネットワークによって実行される。
- 参考スコア(独自算出の注目度): 6.267456830673774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a system for visual scene analysis and recognition based on encoding the sparse, latent feature-representation of an image into a high-dimensional vector that is subsequently factorized to parse scene content. The sparse feature representation is learned from image statistics via convolutional sparse coding, while scene parsing is performed by a resonator network. The integration of sparse coding with the resonator network increases the capacity of distributed representations and reduces collisions in the combinatorial search space during factorization. We find that for this problem the resonator network is capable of fast and accurate vector factorization, and we develop a confidence-based metric that assists in tracking the convergence of the resonator network.
- Abstract(参考訳): 本稿では,画像のスパースで潜在的な特徴表現を高次元ベクトルに符号化し,シーンコンテンツを解析する視覚的シーン解析と認識システムを提案する。
スパース特徴表現は畳み込みスパース符号化により画像統計から学習され、シーン解析は共振器ネットワークによって実行される。
共振器ネットワークとのスパース符号化の統合により、分散表現の容量が増加し、分解時の組合せ探索空間における衝突を低減する。
この問題に対して、共振器ネットワークは高速かつ正確なベクトル分解が可能であり、共振器ネットワークの収束を追跡するための信頼度に基づく計量を開発する。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Self-Attention Based Semantic Decomposition in Vector Symbolic Architectures [6.473177443214531]
本稿では,反復探索問題における自己アテンションに基づく更新規則に基づく共振器ネットワークの新たな変種を提案する。
認識に基づくパターン認識,シーン分解,オブジェクト推論など,多くのタスクに応用できる。
論文 参考訳(メタデータ) (2024-03-20T00:37:19Z) - Frequency Disentangled Features in Neural Image Compression [13.016298207860974]
ニューラル画像圧縮ネットワークは、エントロピーモデルが潜在コードの真の分布とどの程度うまく一致しているかによって制御される。
本稿では,緩和されたスカラー量子化が低ビットレートを実現するのに役立つ特徴レベルの周波数歪みを提案する。
提案するネットワークは,手作業によるコーデックだけでなく,空間的自己回帰エントロピーモデル上に構築されたニューラルネットワークベースのコーデックよりも優れている。
論文 参考訳(メタデータ) (2023-08-04T14:55:44Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Meta-Learning Sparse Implicit Neural Representations [69.15490627853629]
入射神経表現は、一般的な信号を表す新しい道である。
現在のアプローチは、多数の信号やデータセットに対してスケールすることが難しい。
メタ学習型スパースニューラル表現は,高密度メタ学習モデルよりもはるかに少ない損失が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T18:02:53Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Convolutional Autoencoder for Blind Hyperspectral Image Unmixing [0.0]
スペクトルアンミックス(英: spectrum unmixing)は、混合ピクセルを2つの基本的代表、すなわちエンドメンバーとアブリダンスに分解する技法である。
本稿では,ハイパースペクトル画像にブラインドアンミックスを行う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-18T17:41:31Z) - Learning Adaptive Sampling and Reconstruction for Volume Visualization [13.595857406165294]
データビジュアライゼーションにおける中心的な課題は、関連する情報がエンコードされたデータセットの画像を生成するために、どのデータサンプルが必要であるかを理解することである。
本研究では,人工知能が高密度あるいは低密度のデータをどこでサンプリングするかを予測することができるかどうか,という疑問に答える第一歩を踏み出す。
低解像度の入力画像からスパース適応サンプリング構造を生成するために、エンドツーエンドで訓練された新しいニューラルレンダリングパイプラインを導入する。
論文 参考訳(メタデータ) (2020-07-20T13:36:54Z) - Resonator networks for factoring distributed representations of data
structures [3.46969645559477]
分散表現空間上の代数を構成する高次元ベクトルと演算を組み合わせることにより、データ構造がどのように符号化されるかを示す。
提案アルゴリズムは共振器ネットワークと呼ばれ、VSA乗算演算とパターン補完をインターリーブする新しいタイプのリカレントニューラルネットワークである。
共振器ネットワークは、現実世界のドメインにおける無数の人工知能問題にVSAを適用する可能性を開く。
論文 参考訳(メタデータ) (2020-07-07T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。