論文の概要: Transcribing Spanish Texts from the Past: Experiments with Transkribus, Tesseract and Granite
- arxiv url: http://arxiv.org/abs/2507.04878v1
- Date: Mon, 07 Jul 2025 11:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.390166
- Title: Transcribing Spanish Texts from the Past: Experiments with Transkribus, Tesseract and Granite
- Title(参考訳): 過去のスペイン語テキストの翻訳:Transkribus, Tesseract, Graniteによる実験
- Authors: Yanco Amor Torterolo-Orta, Jaione Macicior-Mitxelena, Marina Miguez-Lamanuzzi, Ana García-Serrano,
- Abstract要約: 本稿では,IberLEF 2025の共有タスクである PastReader: Transcribing Texts from the Past で GRESEL チームが得られた実験結果を紹介する。
- 参考スコア(独自算出の注目度): 0.09999629695552192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This article presents the experiments and results obtained by the GRESEL team in the IberLEF 2025 shared task PastReader: Transcribing Texts from the Past. Three types of experiments were conducted with the dual aim of participating in the task and enabling comparisons across different approaches. These included the use of a web-based OCR service, a traditional OCR engine, and a compact multimodal model. All experiments were run on consumer-grade hardware, which, despite lacking high-performance computing capacity, provided sufficient storage and stability. The results, while satisfactory, leave room for further improvement. Future work will focus on exploring new techniques and ideas using the Spanish-language dataset provided by the shared task, in collaboration with Biblioteca Nacional de Espa\~na (BNE).
- Abstract(参考訳): 本稿では,IberLEF 2025の共有タスクである PastReader: Transcribing Texts from the Past で GRESEL チームが得られた実験結果を紹介する。
タスクへの参加と,異なるアプローチ間の比較を可能にするという2つの目的で,3種類の実験を行った。
これにはウェブベースのOCRサービス、従来のOCRエンジン、コンパクトなマルチモーダルモデルなどが含まれていた。
すべての実験はコンシューマグレードのハードウェア上で実行され、高性能な計算能力に欠けていたにもかかわらず、十分なストレージと安定性が提供された。
結果は満足のいくものの、さらなる改善のために余地を残します。
今後の作業は、共通タスクが提供するスペイン語データセットを使用して、Biblioteca Nacional de Espa\~na(BNE)と共同で、新たなテクニックとアイデアの探求に重点を置く予定である。
関連論文リスト
- Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - UPB at IberLEF-2023 AuTexTification: Detection of Machine-Generated Text
using Transformer Ensembles [0.5324802812881543]
本稿では, UPB チームによる AuTexTification 共有タスクへのソリューションとして, IberleF-2023 の一部として紹介する。
我々の最高のパフォーマンスモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2023-08-02T20:08:59Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Improving Adverse Drug Event Extraction with SpanBERT on Different Text
Typologies [7.811410039780227]
本稿では,ADE抽出作業におけるSpanBERTアーキテクチャの利用を初めて提案する。
人気の高いBERT変換器の新バージョンでは、マルチトークンテキストスパンが改良された。
論文 参考訳(メタデータ) (2021-05-19T02:01:09Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。