論文の概要: DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives
- arxiv url: http://arxiv.org/abs/2411.09318v1
- Date: Thu, 14 Nov 2024 10:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:27.982306
- Title: DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives
- Title(参考訳): DriveThru: インドネシアのローカル言語アーカイブのためのドキュメント抽出プラットフォームとベンチマークデータセット
- Authors: MohammadRifqi Farhansyah, Muhammad Zuhdi Fikri Johari, Afinzaki Amiral, Ayu Purwarianti, Kumara Ari Yuana, Derry Tanti Wijaya,
- Abstract要約: インドネシアは言語的にも最も多様な国の一つである。
この言語的多様性にもかかわらず、インドネシア語は、自然言語処理の研究と技術において不足している。
インドネシアではこれまでデジタル言語リソースの構築に使われていなかった文書をデジタル化してデータセットを作成する方法を提案する。
- 参考スコア(独自算出の注目度): 6.599829213637133
- License:
- Abstract: Indonesia is one of the most diverse countries linguistically. However, despite this linguistic diversity, Indonesian languages remain underrepresented in Natural Language Processing (NLP) research and technologies. In the past two years, several efforts have been conducted to construct NLP resources for Indonesian languages. However, most of these efforts have been focused on creating manual resources thus difficult to scale to more languages. Although many Indonesian languages do not have a web presence, locally there are resources that document these languages well in printed forms such as books, magazines, and newspapers. Digitizing these existing resources will enable scaling of Indonesian language resource construction to many more languages. In this paper, we propose an alternative method of creating datasets by digitizing documents, which have not previously been used to build digital language resources in Indonesia. DriveThru is a platform for extracting document content utilizing Optical Character Recognition (OCR) techniques in its system to provide language resource building with less manual effort and cost. This paper also studies the utility of current state-of-the-art LLM for post-OCR correction to show the capability of increasing the character accuracy rate (CAR) and word accuracy rate (WAR) compared to off-the-shelf OCR.
- Abstract(参考訳): インドネシアは言語的にも最も多様な国の一つである。
しかし、この言語的多様性にもかかわらず、インドネシアの言語は、自然言語処理(NLP)の研究と技術において不足している。
過去2年間、インドネシア語のためのNLPリソースの構築にいくつかの取り組みがなされてきた。
しかしながら、これらの取り組みのほとんどは手作業によるリソースの作成に集中しており、より多くの言語にスケールすることは困難である。
多くのインドネシア語にはウェブが存在しないが、地元では書籍、雑誌、新聞などの印刷形式でこれらの言語をうまく記録する資料がある。
これらの既存のリソースをデジタル化することで、インドネシア語のリソース構築をもっと多くの言語に拡張することができる。
本稿では、これまでインドネシアでデジタル言語リソースの構築に用いられていなかった文書をデジタル化してデータセットを作成する方法を提案する。
DriveThruは,光学文字認識(OCR)技術を利用した文書コンテンツを抽出するプラットフォームである。
また,従来のOCRに比べて文字精度 (CAR) と単語精度 (WAR) を向上する能力を示すため,OCR後の修正における現状LLMの有用性についても検討した。
関連論文リスト
- LowREm: A Repository of Word Embeddings for 87 Low-Resource Languages Enhanced with Multilingual Graph Knowledge [0.6317163123651698]
87の低リソース言語に対する静的な埋め込みのリポジトリであるLowREmを紹介します。
また,多言語グラフ知識を統合することで,GloVeベースの埋め込みを強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T18:10:26Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Contextualising Levels of Language Resourcedness affecting Digital
Processing of Text [0.5620321106679633]
我々は,全言語における直交型論 LRL と HRL が問題であると主張している。
特徴付けは、ツールを数えるのではなく、各カテゴリの文脈的特徴の類型化に基づいている。
論文 参考訳(メタデータ) (2023-09-29T07:48:24Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。