Fugu-MT 論文翻訳(概要): Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling

論文の概要: Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling

arxiv url: http://arxiv.org/abs/2409.05699v1
Date: Mon, 9 Sep 2024 15:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 14:06:46.379500
Title: Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling
Title（参考訳）: 学習型ラベリングを用いたCNNによる手書き認識システムの構築
Authors: Sara Ferro, Alessandro Torcinovich, Arianna Traviglia, Marcello Pelillo,
Abstract要約: 本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
参考スコア（独自算出の注目度）: 48.78361527873024
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The primary challenge for handwriting recognition systems lies in managing long-range contextual dependencies, an issue that traditional models often struggle with. To mitigate it, attention mechanisms have recently been employed to enhance context-aware labelling, thereby achieving state-of-the-art performance. In the field of pattern recognition and image analysis, however, the use of contextual information in labelling problems has a long history and goes back at least to the early 1970's. Among the various approaches developed in those years, Relaxation Labelling (RL) processes have played a prominent role and have been the method of choice in the field for more than a decade. Contrary to recent transformer-based architectures, RL processes offer a principled approach to the use of contextual constraints, having a solid theoretic foundation grounded on variational inequality and game theory, as well as effective algorithms with convergence guarantees. In this paper, we propose a novel approach to handwriting recognition that integrates the strengths of two distinct methodologies. In particular, we propose integrating (trainable) RL processes with various well-established neural architectures and we introduce a sparsification technique that accelerates the convergence of the algorithm and enhances the overall system's performance. Experiments over several benchmark datasets show that RL processes can improve the generalisation ability, even surpassing in some cases transformer-based architectures.
Abstract（参考訳）: 手書き認識システムの最大の課題は、従来のモデルがしばしば抱える問題である、長距離コンテキスト依存の管理である。これを緩和するために、近年、コンテキスト認識ラベリングを強化し、最先端の性能を達成するために注意機構が採用されている。しかし、パターン認識と画像解析の分野では、ラベル付け問題における文脈情報の利用は長い歴史を持ち、少なくとも1970年代初期までさかのぼる。当時開発された様々なアプローチの中で、緩和ラベリング(RL)プロセスは際立った役割を担い、この分野において10年以上の選択方法となっている。最近のトランスフォーマーベースのアーキテクチャとは対照的に、RLプロセスは文脈制約の使用に対する原則的なアプローチを提供し、変動的不等式とゲーム理論に基づく固い理論基盤を持ち、収束保証を伴う効果的なアルゴリズムを提供する。本稿では,2つの異なる手法の強みを統合した手書き文字認識手法を提案する。本稿では, アルゴリズムの収束を加速し, システム全体の性能を向上させるスペーシフィケーション手法を提案する。複数のベンチマークデータセットに対する実験は、RLプロセスが一般化能力を向上させることを示し、場合によってはトランスフォーマーベースのアーキテクチャを超越することさえある。

関連論文リスト

Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文参考訳（メタデータ） (2026-01-25T07:09:20Z)
Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。 CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文参考訳（メタデータ） (2025-11-26T09:49:48Z)
RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。コードとデータセットを含む、対応するリソースをリリースしました。
論文参考訳（メタデータ） (2025-09-18T07:35:58Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文参考訳（メタデータ） (2025-03-22T07:03:57Z)
Speculative Decoding and Beyond: An In-Depth Survey of Techniques [4.165029665035158]
シーケンシャルな依存関係は、大規模な自己回帰モデルをデプロイする上で、根本的なボトルネックとなる。ジェネレーション・リファインメント・フレームワークの最近の進歩は、このトレードオフを著しく緩和できることを示している。
論文参考訳（メタデータ） (2025-02-27T03:53:45Z)
A Comprehensive Framework for Semantic Similarity Analysis of Human and AI-Generated Text Using Transformer Architectures and Ensemble Techniques [40.704014941800594]
従来の手法では、人間と機械が生成したコンテンツ間の微妙な意味的差異を捉えられなかった。本稿では,DeBERTa-v3-largeモデル,双方向LSTM,線形アテンションプールを併用して,局所的および大域的セマンティックパターンを抽出する手法を提案する。実験の結果,本手法は従来の手法よりも有効であり,AIによるテキスト検出や他のテキスト比較タスクの有用性が証明された。
論文参考訳（メタデータ） (2025-01-24T07:07:37Z)
From Noise to Nuance: Advances in Deep Generative Image Models [8.802499769896192]
ディープラーニングに基づく画像生成は、2021年以来パラダイムシフトを続けてきた。安定拡散, DALL-E, 一貫性モデルの最近の進歩は, 画像合成の能力と性能の境界を再定義している。マルチモーダル理解とゼロショット生成能力の強化が,産業全体にわたる実践的応用をいかに変えつつあるかを検討する。
論文参考訳（メタデータ） (2024-12-12T02:09:04Z)
Symbolic-AI-Fusion Deep Learning (SAIF-DL): Encoding Knowledge into Training with Answer Set Programming Loss Penalties by a Novel Loss Function Approach [0.7420433640907689]
ドメイン固有の制約、ルール、論理的推論を直接モデルの学習プロセスにエンコードします。提案手法はフレキシブルであり、回帰タスクと分類タスクの両方に適用可能である。この設計により、ASPルールを単に更新することで、損失関数の自動化が可能になる。
論文参考訳（メタデータ） (2024-11-13T09:33:33Z)
Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文参考訳（メタデータ） (2024-10-30T20:28:10Z)
A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文参考訳（メタデータ） (2024-09-21T15:50:59Z)
LInK: Learning Joint Representations of Design and Performance Spaces through Contrastive Learning for Mechanism Synthesis [15.793704096341523]
本稿では,性能と設計空間のコントラスト学習と最適化手法を統合する新しいフレームワークであるLInKを紹介する。マルチモーダルおよび変換不変のコントラスト学習フレームワークを活用することで、LInKは複雑な物理学とメカニズムの設計表現をキャプチャする共同表現を学習する。以上の結果から,LInKは機構設計の分野を進展させるだけでなく,他の工学分野へのコントラスト学習や最適化の適用性も拡大することが示された。
論文参考訳（メタデータ） (2024-05-31T03:04:57Z)
REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。 REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文参考訳（メタデータ） (2023-07-18T04:26:33Z)
Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning [24.284863599920115]
マルチエージェントRL問題としてStackelberg equilibria Searchを実装するための一般的なフレームワークを提案する。我々は、このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように捉えられるかについて議論する。
論文参考訳（メタデータ） (2022-10-19T23:04:16Z)
$\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文参考訳（メタデータ） (2022-04-05T07:34:12Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。本手法は分類問題と回帰問題の両方に有効であることを示す。また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2021-05-19T13:30:34Z)
Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文参考訳（メタデータ） (2020-08-14T22:48:36Z)
Model-based Multi-Agent Reinforcement Learning with Cooperative Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2020-01-15T19:13:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。