論文の概要: Developing a Mixed-Methods Pipeline for Community-Oriented Digitization of Kwak'wala Legacy Texts
- arxiv url: http://arxiv.org/abs/2506.01775v1
- Date: Mon, 02 Jun 2025 15:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.768312
- Title: Developing a Mixed-Methods Pipeline for Community-Oriented Digitization of Kwak'wala Legacy Texts
- Title(参考訳): Kwak'walaレガシーテキストのコミュニティ指向デジタル化のための混合手法パイプラインの開発
- Authors: Milind Agarwal, Daisy Rosenblum, Antonios Anastasopoulos,
- Abstract要約: クワクワラ(Kwak'wala)は、カナダのブリティッシュコロンビア州で話されている言語である。
フランツ・ボアズとジョージ・ハントが共同で作成した初期の11巻以上のテキストがスキャンされたが、機械で読めないままである。
我々は、Kwak'walaテキストを効果的に分離するために、既製のOCRメソッド、言語識別、マスキングを組み合わせて提案する。
- 参考スコア(独自算出の注目度): 21.21531481916695
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Kwak'wala is an Indigenous language spoken in British Columbia, with a rich legacy of published documentation spanning more than a century, and an active community of speakers, teachers, and learners engaged in language revitalization. Over 11 volumes of the earliest texts created during the collaboration between Franz Boas and George Hunt have been scanned but remain unreadable by machines. Complete digitization through optical character recognition has the potential to facilitate transliteration into modern orthographies and the creation of other language technologies. In this paper, we apply the latest OCR techniques to a series of Kwak'wala texts only accessible as images, and discuss the challenges and unique adaptations necessary to make such technologies work for these real-world texts. Building on previous methods, we propose using a mix of off-the-shelf OCR methods, language identification, and masking to effectively isolate Kwak'wala text, along with post-correction models, to produce a final high-quality transcription.
- Abstract(参考訳): クワクワラ語はブリティッシュコロンビア州で話される先住民族の言語であり、1世紀以上にわたる文書の豊富な遺産と、話者、教師、学習者の活発なコミュニティがある。
フランツ・ボアズとジョージ・ハントが共同で作成した初期の11巻以上のテキストがスキャンされたが、機械で読めないままである。
光文字認識による完全なデジタル化は、現代の正書法への翻訳と他の言語技術の創出を促進する可能性がある。
本稿では,最新のOCR手法を画像としてのみアクセス可能な一連のクワクワラテキストに適用し,これらの技術が現実のテキストに有効であるために必要な課題とユニークな適応について論じる。
提案手法は,既製のOCR法,言語識別,マスキングを併用して,Kwak'walaテキストとポスト補正モデルとを効果的に分離し,最終的な高品質な文字起こしを実現する手法である。
関連論文リスト
- ParsiPy: NLP Toolkit for Historical Persian Texts in Python [1.637832760977605]
この研究は、音声の書き起こしを処理し、古代のテキストを分析するためのNLPツールキットであるParsiPyを導入している。
ParsiPyは、トークン化、補題化、音声タグ付け、音素から音素への変換、単語の埋め込みのためのモジュールを提供する。
論文 参考訳(メタデータ) (2025-03-22T16:21:29Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Deciphering Oracle Bone Language with Diffusion Models [70.69739681961558]
Oracle Bone Script (OBS) は約3,000年前の中国の上海王朝に由来する。
本稿では,Oracle Bone Script Decipher(OBSD)の開発を通じて,画像生成技術を採用した新しいアプローチを提案する。
OBSDは、古代の言語のAI支援分析の新しいコースをグラフ化して、解読のための重要な手がかりを生成する。
論文 参考訳(メタデータ) (2024-06-02T09:42:23Z) - Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach [0.0]
本稿では,ベンガル文字とネパール文字のテキスト認識について論じる。
ベンガル語話者は約3億人、ネパール語話者は約4000万人である。
その結果,提案手法が現在のアプローチと一致していることが示唆された。
論文 参考訳(メタデータ) (2024-04-03T00:21:14Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。