論文の概要: Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling
- arxiv url: http://arxiv.org/abs/2409.05699v1
- Date: Mon, 9 Sep 2024 15:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:06:46.379500
- Title: Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling
- Title(参考訳): 学習型ラベリングを用いたCNNによる手書き認識システムの構築
- Authors: Sara Ferro, Alessandro Torcinovich, Arianna Traviglia, Marcello Pelillo,
- Abstract要約: 本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。
本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
- 参考スコア(独自算出の注目度): 48.78361527873024
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The primary challenge for handwriting recognition systems lies in managing long-range contextual dependencies, an issue that traditional models often struggle with. To mitigate it, attention mechanisms have recently been employed to enhance context-aware labelling, thereby achieving state-of-the-art performance. In the field of pattern recognition and image analysis, however, the use of contextual information in labelling problems has a long history and goes back at least to the early 1970's. Among the various approaches developed in those years, Relaxation Labelling (RL) processes have played a prominent role and have been the method of choice in the field for more than a decade. Contrary to recent transformer-based architectures, RL processes offer a principled approach to the use of contextual constraints, having a solid theoretic foundation grounded on variational inequality and game theory, as well as effective algorithms with convergence guarantees. In this paper, we propose a novel approach to handwriting recognition that integrates the strengths of two distinct methodologies. In particular, we propose integrating (trainable) RL processes with various well-established neural architectures and we introduce a sparsification technique that accelerates the convergence of the algorithm and enhances the overall system's performance. Experiments over several benchmark datasets show that RL processes can improve the generalisation ability, even surpassing in some cases transformer-based architectures.
- Abstract(参考訳): 手書き認識システムの最大の課題は、従来のモデルがしばしば抱える問題である、長距離コンテキスト依存の管理である。
これを緩和するために、近年、コンテキスト認識ラベリングを強化し、最先端の性能を達成するために注意機構が採用されている。
しかし、パターン認識と画像解析の分野では、ラベル付け問題における文脈情報の利用は長い歴史を持ち、少なくとも1970年代初期までさかのぼる。
当時開発された様々なアプローチの中で、緩和ラベリング(RL)プロセスは際立った役割を担い、この分野において10年以上の選択方法となっている。
最近のトランスフォーマーベースのアーキテクチャとは対照的に、RLプロセスは文脈制約の使用に対する原則的なアプローチを提供し、変動的不等式とゲーム理論に基づく固い理論基盤を持ち、収束保証を伴う効果的なアルゴリズムを提供する。
本稿では,2つの異なる手法の強みを統合した手書き文字認識手法を提案する。
本稿では, アルゴリズムの収束を加速し, システム全体の性能を向上させるスペーシフィケーション手法を提案する。
複数のベンチマークデータセットに対する実験は、RLプロセスが一般化能力を向上させることを示し、場合によってはトランスフォーマーベースのアーキテクチャを超越することさえある。
関連論文リスト
- Symbolic-AI-Fusion Deep Learning (SAIF-DL): Encoding Knowledge into Training with Answer Set Programming Loss Penalties by a Novel Loss Function Approach [0.7420433640907689]
ドメイン固有の制約、ルール、論理的推論を直接モデルの学習プロセスにエンコードします。
提案手法はフレキシブルであり、回帰タスクと分類タスクの両方に適用可能である。
この設計により、ASPルールを単に更新することで、損失関数の自動化が可能になる。
論文 参考訳(メタデータ) (2024-11-13T09:33:33Z) - Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。
本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文 参考訳(メタデータ) (2024-10-30T20:28:10Z) - LInK: Learning Joint Representations of Design and Performance Spaces through Contrastive Learning for Mechanism Synthesis [15.793704096341523]
本稿では,性能と設計空間のコントラスト学習と最適化手法を統合する新しいフレームワークであるLInKを紹介する。
マルチモーダルおよび変換不変のコントラスト学習フレームワークを活用することで、LInKは複雑な物理学とメカニズムの設計表現をキャプチャする共同表現を学習する。
以上の結果から,LInKは機構設計の分野を進展させるだけでなく,他の工学分野へのコントラスト学習や最適化の適用性も拡大することが示された。
論文 参考訳(メタデータ) (2024-05-31T03:04:57Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent
Reinforcement Learning [24.284863599920115]
マルチエージェントRL問題としてStackelberg equilibria Searchを実装するための一般的なフレームワークを提案する。
我々は、このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように捉えられるかについて議論する。
論文 参考訳(メタデータ) (2022-10-19T23:04:16Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。