論文の概要: Vision-Enabled LLMs in Historical Lexicography: Digitising and Enriching Estonian-German Dictionaries from the 17th and 18th Centuries
- arxiv url: http://arxiv.org/abs/2510.07931v1
- Date: Thu, 09 Oct 2025 08:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.956892
- Title: Vision-Enabled LLMs in Historical Lexicography: Digitising and Enriching Estonian-German Dictionaries from the 17th and 18th Centuries
- Title(参考訳): 歴史レクシコグラフィーにおける視覚可能LLM:17世紀から18世紀にかけてのエストニア・ドイツ辞書のデジタル化と充実
- Authors: Madis Jürviste, Joonatan Jakobson,
- Abstract要約: 本稿では,2022年から2025年にかけてエストニア語研究所で行われた大規模言語モデル(LLM)の適用に関する研究について述べる。
著者らは3つの主要な領域に対処する: 現代語形と意味を持つ歴史的辞書を充実させる; 視覚対応のLLMを使用して、ゴシック文字(Fraktur)で印刷されたソース上でテキスト認識を行う; 統一されたクロスソースデータセットを作成する準備をする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents research conducted at the Institute of the Estonian Language between 2022 and 2025 on the application of large language models (LLMs) to the study of 17th and 18th century Estonian dictionaries. The authors address three main areas: enriching historical dictionaries with modern word forms and meanings; using vision-enabled LLMs to perform text recognition on sources printed in Gothic script (Fraktur); and preparing for the creation of a unified, cross-source dataset. Initial experiments with J. Gutslaff's 1648 dictionary indicate that LLMs have significant potential for semi-automatic enrichment of dictionary information. When provided with sufficient context, Claude 3.7 Sonnet accurately provided meanings and modern equivalents for 81% of headword entries. In a text recognition experiment with A. T. Helle's 1732 dictionary, a zero-shot method successfully identified and structured 41% of headword entries into error-free JSON-formatted output. For digitising the Estonian-German dictionary section of A. W. Hupel's 1780 grammar, overlapping tiling of scanned image files is employed, with one LLM being used for text recognition and a second for merging the structured output. These findings demonstrate that even for minor languages LLMs have a significant potential for saving time and financial resources.
- Abstract(参考訳): 本稿では,2022年から2025年にかけてエストニア語研究所において,大言語モデル(LLM)を17世紀から18世紀のエストニア語辞書に応用する研究について述べる。
著者らは3つの主要な領域に対処する: 現代語形と意味を持つ歴史的辞書を充実させる; 視覚対応のLLMを使用して、ゴシック文字(Fraktur)で印刷されたソース上でテキスト認識を行う; 統一されたクロスソースデータセットを作成する準備をする。
J. Gutslaff の 1648 辞書による最初の実験は、LLM が辞書情報の半自動エンリッチ化に有意な可能性を示唆している。
十分なコンテキストが提供されると、Claude 3.7 Sonnetは81%の見出しのエントリに対して正確に意味と近代的な等価性を提供した。
A.T. Helle の 1732 辞書を用いたテキスト認識実験において、ゼロショット法は、誤りのない JSON 形式の出力に見出しのエントリの 41% を識別し、構造化した。
A・W・ヒューペルの1780年の文法のエストニア・ドイツ辞書をデジタル化するためには、スキャンされた画像ファイルの重なり合うタイリングを使用し、1つのLLMをテキスト認識、もう1つは構造化された出力をマージする。
これらの結果から,中小言語であっても LLM は時間と財源を節約できる可能性が示唆された。
関連論文リスト
- SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - Are Lexicon-Based Tools Still the Gold Standard for Valence Analysis in Low-Resource Flemish? [0.0]
LIWCやPatternといった従来のレキシコンベースのツールは、長い間この領域の基本的な道具として機能してきた。
オランダ語話者102名を対象に,まず約25,000件のテキスト応答について検討した。
オランダ固有の3つのLLMの性能評価を行い, LIWCとPatternで生成した値と比較した。
本研究は,自然言語使用の複雑さを包括的に扱える,文化的・言語学的にカスタマイズされたモデル・ツールの開発に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-06-04T16:31:37Z) - A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950 [0.0]
本稿では,大言語モデル(LLM)と従来の自然言語処理(NLP)ツールを比較し,単語セグメンテーション,POSタグ付け,名前付きエンティティ認識(NER)について述べる。
歴史的中国の文書は、その書体、自然語境界の欠如、言語学的変化により、テキスト分析の課題を提起している。
論文 参考訳(メタデータ) (2025-03-25T17:07:21Z) - Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Are BabyLMs Second Language Learners? [48.85680614529188]
本稿では,BabyLM Challengeの2024年版に対する言語的動機づけのアプローチについて述べる。
第1言語学習(L1)パラダイムを追求するのではなく,第2言語(L2)学習の観点から,課題にアプローチする。
論文 参考訳(メタデータ) (2024-10-28T17:52:15Z) - AutoLLM-CARD: Towards a Description and Landscape of Large Language Models [11.72819342209987]
大規模言語モデル(LLM)は多様なNLPタスクに対して出現し続けている。
より多くの論文が出版されるにつれ、研究者や開発者は情報過負荷の課題に直面している。
学術出版物からLLMモデルカードを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T15:15:57Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。