論文の概要: Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark
- arxiv url: http://arxiv.org/abs/2510.19585v2
- Date: Tue, 28 Oct 2025 13:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.859473
- Title: Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark
- Title(参考訳): 大規模言語モデルによる歴史書中のラテン語の検出:マルチモーダルベンチマーク
- Authors: Yu Wu, Ke Shu, Jonas Fischer, Lidia Pivovarova, David Rosson, Eetu Mäkelä, Mikko Tolonen,
- Abstract要約: 本稿では,様々なレイアウトの混在した古文書からラテン語の断片を抽出する新しい課題について述べる。
注釈付き724ページのマルチモーダルデータセットに対して,大規模ファンデーションモデルの性能をベンチマークし,評価した。
- 参考スコア(独自算出の注目度): 10.3941632539902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel task of extracting Latin fragments from mixed-language historical documents with varied layouts. We benchmark and evaluate the performance of large foundation models against a multimodal dataset of 724 annotated pages. The results demonstrate that reliable Latin detection with contemporary models is achievable. Our study provides the first comprehensive analysis of these models' capabilities and limits for this task.
- Abstract(参考訳): 本稿では,様々なレイアウトの混在した古文書からラテン語の断片を抽出する新しい課題について述べる。
注釈付き724ページのマルチモーダルデータセットに対して,大規模ファンデーションモデルの性能をベンチマークし,評価した。
その結果、現代モデルによる信頼できるラテン検出が達成可能であることが示された。
本研究は,これらのモデルの能力と限界を包括的に分析した最初の論文である。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文 参考訳(メタデータ) (2024-04-19T12:06:28Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。