論文の概要: The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing
- arxiv url: http://arxiv.org/abs/2506.06761v1
- Date: Sat, 07 Jun 2025 11:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.466973
- Title: The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing
- Title(参考訳): OCR Quest for Generalization:モデル編集による低リソースアルファベット認識学習
- Authors: Adrià Molina Rodríguez, Oriol Ramos Terrades, Josep Lladós,
- Abstract要約: 我々は,アルファベットなどの新しいデータ分布に一般化可能なモデルの構築を,集中的な微調整戦略よりも高速に行うことを目的としている。
最先端のメタラーニングとは対照的に、データのスパース分布におけるドメインマージの有効性を示す。
この研究は、表現不足のアルファベットを簡単に適用できるモデルを構築するための新しいアプローチに寄与する。
- 参考スコア(独自算出の注目度): 2.7471068141502
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Achieving robustness in recognition systems across diverse domains is crucial for their practical utility. While ample data availability is usually assumed, low-resource languages, such as ancient manuscripts and non-western languages, tend to be kept out of the equations of massive pretraining and foundational techniques due to an under representation. In this work, we aim for building models which can generalize to new distributions of data, such as alphabets, faster than centralized fine-tune strategies. For doing so, we take advantage of the recent advancements in model editing to enhance the incorporation of unseen scripts (low-resource learning). In contrast to state-of-the-art meta-learning, we showcase the effectiveness of domain merging in sparse distributions of data, with agnosticity of its relation to the overall distribution or any other prototyping necessity. Even when using the same exact training data, our experiments showcase significant performance boosts in \textbf{transfer learning} to new alphabets and \textbf{out-of-domain evaluation} in challenging domain shifts, including historical ciphered texts and non-Latin scripts. This research contributes a novel approach into building models that can easily adopt under-represented alphabets and, therefore, enable document recognition to a wider set of contexts and cultures.
- Abstract(参考訳): 多様なドメインにまたがる認識システムの堅牢性を達成することは、その実用性に不可欠である。
十分なデータ可用性が想定されるが、古代の写本や非西洋の言語のような低リソース言語は、下記の表現による大規模な事前訓練や基礎的な技法の方程式から遠ざかる傾向にある。
本研究では,アルファベットなどの新しいデータ分布に一般化可能なモデルを構築することを目的としている。
そのため、モデル編集の最近の進歩を活用し、未確認のスクリプト(低リソース学習)の取り込みを強化する。
最先端のメタラーニングとは対照的に,データのスパース分布におけるドメインマージの有効性を示す。
同じ正確なトレーニングデータを使用した場合であっても、過去の暗号文や非ラテン文字を含むドメインシフトに挑戦する上で、新しいアルファベットに対する \textbf{transfer learning} と \textbf{out-of- domain evaluation} の大幅な性能向上を示す。
本研究は、下記のアルファベットを簡単に採用できるモデルを構築するための新しいアプローチに寄与するので、より広い文脈や文化に文書認識を可能にする。
関連論文リスト
- Citation Parsing and Analysis with Language Models [0.0]
文書引用をインデックス化可能な形式でマークアップするオープンウェイト言語モデルの能力について検討する。
ボックスからでも、今日の言語モデルでは、各引用の構成要素を特定する上で高いレベルの精度が得られます。
論文 参考訳(メタデータ) (2025-05-21T19:06:17Z) - Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition [3.667678728817253]
文書中の新しいスクリプトパターンのシーケンスを分類するために,Multimodal In-Context Learning (MICL)を活用するマルチモーダルモデルであるRosettaを導入する。
提案手法の重要な強みは,オープン語彙分類を可能にするコンテキスト認識トークンライザ(CAT)を使用することである。
結果として、新しいアルファベットや言語の認識などのアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-09T12:58:25Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。