論文の概要: Base and Exponent Prediction in Mathematical Expressions using Multi-Output CNN
- arxiv url: http://arxiv.org/abs/2407.14967v1
- Date: Sat, 20 Jul 2024 19:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:48:22.041088
- Title: Base and Exponent Prediction in Mathematical Expressions using Multi-Output CNN
- Title(参考訳): マルチ出力CNNを用いた数学的表現のベースおよび指数予測
- Authors: Md Laraib Salam, Akash S Balsaraf, Gaurav Gupta,
- Abstract要約: 本研究は、多出力畳み込みニューラルネットワーク(CNN)を用いた数学的表現の画像から基底と指数の両方を予測するための単純化された効果的なアプローチを提案する。
このモデルは、実世界の条件をシミュレートするために、ランダムノイズ、フォントサイズの変化、およびブラーインテンシティを組み込んだ、指数式を含む10,900の合成画像に基づいて訓練される。
実験結果から,モデルがベースおよび指数値の予測において高い精度を達成し,ノイズや入力画像の変化に対するこのアプローチの有効性が証明された。
- 参考スコア(独自算出の注目度): 2.4366097951781795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of neural networks and deep learning techniques in image processing has significantly advanced the field, enabling highly accurate recognition results. However, achieving high recognition rates often necessitates complex network models, which can be challenging to train and require substantial computational resources. This research presents a simplified yet effective approach to predicting both the base and exponent from images of mathematical expressions using a multi-output Convolutional Neural Network (CNN). The model is trained on 10,900 synthetically generated images containing exponent expressions, incorporating random noise, font size variations, and blur intensity to simulate real-world conditions. The proposed CNN model demonstrates robust performance with efficient training time. The experimental results indicate that the model achieves high accuracy in predicting the base and exponent values, proving the efficacy of this approach in handling noisy and varied input images.
- Abstract(参考訳): 画像処理におけるニューラルネットワークとディープラーニング技術の利用は、その分野を著しく進歩させ、高精度な認識結果を可能にした。
しかし、高い認識率を達成するには、しばしば複雑なネットワークモデルを必要とする。
本研究は,多出力畳み込みニューラルネットワーク(CNN)を用いた数学的表現の画像から基底と指数の両方を予測するための,単純化された効果的なアプローチを提案する。
このモデルは、実世界の条件をシミュレートするために、ランダムノイズ、フォントサイズの変化、およびブラーインテンシティを組み込んだ、指数式を含む10,900の合成画像に基づいて訓練される。
提案したCNNモデルは、効率的なトレーニング時間で堅牢な性能を示す。
実験結果から,モデルがベースおよび指数値の予測において高い精度を達成し,ノイズや入力画像の変化に対するこのアプローチの有効性が証明された。
関連論文リスト
- Research on Optimization of Natural Language Processing Model Based on Multimodal Deep Learning [0.036651088217486416]
本研究の目的は,アテンション機構とマルチモーダルデータに基づく画像表現の研究である。
モデルに複数のパターン層を追加することで、画像コンテンツのセマンティック層と隠れ層が統合される。
ワードベクトルはWord2Vec法で定量化され、畳み込みニューラルネットワークを埋め込んだワードで評価される。
論文 参考訳(メタデータ) (2024-06-13T06:03:59Z) - Adversarial Masking Contrastive Learning for vein recognition [10.886119051977785]
ベイン認識は、セキュリティとプライバシーの高さから注目を集めている。
静脈認識のために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなディープニューラルネットワークが導入されている。
近年の進歩にもかかわらず、画像サンプルの不足のため、指先の特徴抽出のための既存のソリューションはまだ最適ではない。
論文 参考訳(メタデータ) (2024-01-16T03:09:45Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Neural Knitworks: Patched Neural Implicit Representation Networks [1.0470286407954037]
画像合成を実現する自然画像の暗黙的表現学習のためのアーキテクチャであるKnitworkを提案する。
私たちの知る限りでは、画像のインペインティング、超解像化、デノイングといった合成作業に適した座標ベースのパッチの実装は、これが初めてである。
その結果, ピクセルではなくパッチを用いた自然な画像のモデリングにより, 忠実度が高い結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T13:10:46Z) - Research on facial expression recognition based on Multimodal data
fusion and neural network [2.5431493111705943]
このアルゴリズムはマルチモーダルデータに基づいており、顔画像、画像の方向勾配のヒストグラム、顔のランドマークを入力とする。
実験結果から, マルチモーダルデータの相補性により, 精度, 堅牢性, 検出速度が大幅に向上したことがわかった。
論文 参考訳(メタデータ) (2021-09-26T23:45:40Z) - An application of a pseudo-parabolic modeling to texture image
recognition [0.0]
偏微分方程式モデルを用いたテクスチャ画像認識のための新しい手法を提案する。
擬似パラボリックなBuckley-Leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化するそれらの画像から局所的な記述子を収集する。
論文 参考訳(メタデータ) (2021-02-09T18:08:42Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。