論文の概要: A Sobel-Gradient MLP Baseline for Handwritten Character Recognition
- arxiv url: http://arxiv.org/abs/2508.11902v1
- Date: Sat, 16 Aug 2025 04:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.439436
- Title: A Sobel-Gradient MLP Baseline for Handwritten Character Recognition
- Title(参考訳): 手書き文字認識のためのSobel-Gradient MLPベースライン
- Authors: Azam Nouri,
- Abstract要約: 我々は古典的なソベル演算子を再考し、簡単な問いを述べる:手書き文字認識(HCR)のための全密度多層パーセプトロン(MLP)を駆動するのに十分な一階エッジマップは十分か?
水平および垂直のソベル微分のみを入力として、MNISTおよびEMNIST文字上でニューラルネットワークをトレーニングする。
極端な単純さにもかかわらず、結果として得られたネットワークは、MNIST桁で98%、EMNIST文字で92%の精度に達し、CNNに近づきながら、メモリフットプリントと透過的な機能を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the classical Sobel operator to ask a simple question: Are first-order edge maps sufficient to drive an all-dense multilayer perceptron (MLP) for handwritten character recognition (HCR), as an alternative to convolutional neural networks (CNNs)? Using only horizontal and vertical Sobel derivatives as input, we train an MLP on MNIST and EMNIST Letters. Despite its extreme simplicity, the resulting network reaches 98% accuracy on MNIST digits and 92% on EMNIST letters -- approaching CNNs while offering a smaller memory footprint and transparent features. Our findings highlight that much of the class-discriminative information in handwritten character images is already captured by first-order gradients, making edge-aware MLPs a compelling option for HCR.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の代替として、手書き文字認識(HCR)のための全深度多層パーセプトロン(MLP)を駆動するのに十分な一階エッジマップは十分か?
水平および垂直のソベル微分のみを入力として、MNIST と EMNIST Letters で MLP を訓練する。
極端な単純さにもかかわらず、結果として得られたネットワークは、MNIST桁で98%、EMNIST文字で92%の精度に達し、CNNに近づきながら、メモリフットプリントと透過的な機能を提供する。
以上の結果から,手書き文字画像のクラス識別情報の多くは1次勾配で取得されており,エッジ認識型MLPはHCRにとって魅力的な選択肢であることがわかった。
関連論文リスト
- An MLP Baseline for Handwriting Recognition Using Planar Curvature and Gradient Orientation [0.0]
本研究では,手書き文字認識のための多層パーセプトロンを駆動するには,2次幾何学的手がかりだけで十分かどうかを検討する。
この3つの手作り特徴マップを入力として用い,MNIST桁で97%,EMNIST文字で99%の精度を実現した。
論文 参考訳(メタデータ) (2025-08-15T21:18:23Z) - Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training [78.60953331455565]
PRIORは、NTP損失の差分重み付けによって画像関連トークンを優先する、視覚言語による事前学習手法である。
NTPと比較した場合, 平均相対的改善率は19%, 8%であった。
論文 参考訳(メタデータ) (2025-05-13T21:27:52Z) - Bring Your Own View: Graph Neural Networks for Link Prediction with
Personalized Subgraph Selection [57.34881616131377]
異なるエッジに対して最適なサブグラフを自動,個人的,帰納的に識別するプラグイン・アンド・プレイ・フレームワークとしてパーソナライズされたサブグラフセレクタ(PS2)を導入する。
PS2は二段階最適化問題としてインスタンス化され、効率よく解ける。
GNNLPトレーニングに対する新たなアプローチとして,まずエッジの最適な部分グラフを識別し,次にサンプル部分グラフを用いて推論モデルをトレーニングすることを提案する。
論文 参考訳(メタデータ) (2022-12-23T17:30:19Z) - Graph Neural Networks are Inherently Good Generalizers: Insights by
Bridging GNNs and MLPs [71.93227401463199]
本稿では、P(ropagational)MLPと呼ばれる中間モデルクラスを導入することにより、GNNの性能向上を本質的な能力に向ける。
PMLPは、トレーニングにおいてはるかに効率的でありながら、GNNと同等(あるいはそれ以上)に動作することを観察する。
論文 参考訳(メタデータ) (2022-12-18T08:17:32Z) - MLPInit: Embarrassingly Simple GNN Training Acceleration with MLP
Initialization [51.76758674012744]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングするのは複雑で、非常に時間がかかる。
我々は、PeerInitと呼ばれるGNNトレーニングアクセラレーションに対して、恥ずかしく単純だが非常に効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T21:33:51Z) - Brain-inspired Multilayer Perceptron with Spiking Neurons [41.600417794312506]
スパイキングネットワーク(SNN)は、脳にインスパイアされた最も有名なニューラルネットワークである。
脳にインスパイアされたニューラルネットワークからの情報通信機構を導入する。
LIFモジュールでは、当社のSNN-MLPモデルは、ImageNetデータセット上で81.9%、83.3%、83.5%のトップ1の精度を達成した。
論文 参考訳(メタデータ) (2022-03-28T12:21:47Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。