論文の概要: Multimodal LLMs for Historical Dataset Construction from Archival Image Scans: German Patents (1877-1918)
- arxiv url: http://arxiv.org/abs/2512.19675v1
- Date: Mon, 22 Dec 2025 18:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.88525
- Title: Multimodal LLMs for Historical Dataset Construction from Archival Image Scans: German Patents (1877-1918)
- Title(参考訳): 歴史的データセット構築のためのマルチモーダルLCM:ドイツ特許(1877年-1918年)
- Authors: Niclas Griesshaber, Jochen Streb,
- Abstract要約: 我々は、多モーダル大言語モデル(LLM)を活用して、306,070のドイツの特許のデータセットを構築する(1877-1918)
我々のベンチマークは、マルチモーダルLLMが研究アシスタントよりも高品質なデータセットを作成できるという仮の証拠を提供する。
約20から50の特許項目が各ページに埋め込まれ、二重カラム形式で配置され、ゴシック文字とローマ文字で印刷される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We leverage multimodal large language models (LLMs) to construct a dataset of 306,070 German patents (1877-1918) from 9,562 archival image scans using our LLM-based pipeline powered by Gemini-2.5-Pro and Gemini-2.5-Flash-Lite. Our benchmarking exercise provides tentative evidence that multimodal LLMs can create higher quality datasets than our research assistants, while also being more than 795 times faster and 205 times cheaper in constructing the patent dataset from our image corpus. About 20 to 50 patent entries are embedded on each page, arranged in a double-column format and printed in Gothic and Roman fonts. The font and layout complexity of our primary source material suggests to us that multimodal LLMs are a paradigm shift in how datasets are constructed in economic history. We open-source our benchmarking and patent datasets as well as our LLM-based data pipeline, which can be easily adapted to other image corpora using LLM-assisted coding tools, lowering the barriers for less technical researchers. Finally, we explain the economics of deploying LLMs for historical dataset construction and conclude by speculating on the potential implications for the field of economic history.
- Abstract(参考訳): Gemini-2.5-Pro と Gemini-2.5-Flash-Lite をベースとした LLM ベースのパイプラインを用いて,9,562 のアーカイブ画像スキャンから 306,070 個のドイツの特許(1877-1918) のデータセットを構築するために,LLM を利用する。
我々のベンチマークは、マルチモーダルLLMが我々の研究アシスタントよりも高品質なデータセットを作成できるという仮の証拠を提供すると同時に、画像コーパスから特許データセットを構築する場合の795倍、205倍のコストがかかる。
約20から50の特許項目が各ページに埋め込まれ、二重カラム形式で配置され、ゴシック文字とローマ文字で印刷される。
一次資料のフォントとレイアウトの複雑さは、マルチモーダル LLM が経済史におけるデータセット構築のパラダイムシフトであることを示唆している。
ベンチマークと特許データセットとLLMベースのデータパイプラインをオープンソースとして公開しています。
最後に、歴史的データセット構築のためのLLMの展開の経済性を説明し、経済史の分野への潜在的影響を推測して結論付ける。
関連論文リスト
- On the Comprehensibility of Multi-structured Financial Documents using LLMs and Pre-processing Tools [41.122196205034165]
本稿では,大規模言語モデル (LLMs) とマルチモーダル大規模言語モデル (MLLMs) の機能について考察する。
MLLM である GPT-4o は, 直接文書を送受信した場合, 複数構造化文書に対して 56% の精度が得られた。
論文 参考訳(メタデータ) (2025-06-05T15:52:44Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。