論文の概要: Structural Restricted Boltzmann Machine for image denoising and
classification
- arxiv url: http://arxiv.org/abs/2306.09628v1
- Date: Fri, 16 Jun 2023 05:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:58:05.824929
- Title: Structural Restricted Boltzmann Machine for image denoising and
classification
- Title(参考訳): 画像識別・分類のための構造制限ボルツマンマシン
- Authors: Bidaurrazaga Arkaitz, P\'erez Aritz, Santana Roberto
- Abstract要約: 制限ボルツマンマシン(英: Restricted Boltzmann Machines)は、可視単位の別の層に接続された隠れ変数の層からなる生成モデルである。
本稿では,隠れたユニットの接続を可視単位の部分集合に制限する構造制限ボルツマンマシンモデルを提案する。
その結果,提案モデルではより高速かつ安定なトレーニングが可能であり,可視ユニットと隠蔽ユニットの接続が制限されていないRAMに比べ,良好な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restricted Boltzmann Machines are generative models that consist of a layer
of hidden variables connected to another layer of visible units, and they are
used to model the distribution over visible variables. In order to gain a
higher representability power, many hidden units are commonly used, which, in
combination with a large number of visible units, leads to a high number of
trainable parameters. In this work we introduce the Structural Restricted
Boltzmann Machine model, which taking advantage of the structure of the data in
hand, constrains connections of hidden units to subsets of visible units in
order to reduce significantly the number of trainable parameters, without
compromising performance. As a possible area of application, we focus on image
modelling. Based on the nature of the images, the structure of the connections
is given in terms of spatial neighbourhoods over the pixels of the image that
constitute the visible variables of the model. We conduct extensive experiments
on various image domains. Image denoising is evaluated with corrupted images
from the MNIST dataset. The generative power of our models is compared to
vanilla RBMs, as well as their classification performance, which is assessed
with five different image domains. Results show that our proposed model has a
faster and more stable training, while also obtaining better results compared
to an RBM with no constrained connections between its visible and hidden units.
- Abstract(参考訳): 制限ボルツマンマシンは、他の可視単位の層に接続された隠れ変数の層からなる生成モデルであり、可視変数上の分布のモデル化に使用される。
高い表現力を得るためには、多くの隠れユニットが一般的に使われ、多くの可視ユニットと組み合わせることで、多くの訓練可能なパラメータが導かれる。
本研究では,データの構造を生かした構造制約ボルツマン機械モデルを導入し,隠れた単位と可視単位の部分集合との接続を制約することにより,学習可能なパラメータの数を大幅に削減し,性能を損なわないようにする。
応用可能な領域として、画像モデリングに焦点を当てる。
画像の性質に基づいて、接続の構造は、モデルの可視変数を構成する画像のピクセル上の空間的近傍の観点で与えられる。
様々な画像領域について広範な実験を行う。
mnistデータセットの破損画像を用いて画像のノイズ評価を行う。
我々のモデルの生成力はバニラrbmsと比較され、その分類性能は5つの異なる画像領域で評価される。
その結果,提案モデルはより高速で安定したトレーニングが可能であり,また,可視ユニットと隠れユニットとの制約のないrbmと比較して良好な結果が得られることがわかった。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - The Effects of Image Distribution and Task on Adversarial Robustness [4.597864989500202]
モデルの対比堅牢性を測定するために、曲線(AUC)メトリック下の領域への適応を提案する。
我々は、MNIST、CIFAR-10、およびFusionデータセットのモデルにこの逆の堅牢性メトリックを使用した。
論文 参考訳(メタデータ) (2021-02-21T07:15:50Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。