論文の概要: CM1 - A Dataset for Evaluating Few-Shot Information Extraction with Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.04214v1
- Date: Wed, 07 May 2025 08:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.008998
- Title: CM1 - A Dataset for Evaluating Few-Shot Information Extraction with Large Vision Language Models
- Title(参考訳): CM1 - 大規模視覚言語モデルを用いたFew-Shot情報抽出評価用データセット
- Authors: Fabian Wolf, Oliver Tüselmann, Arthur Matei, Lukas Hennies, Christoph Rass, Gernot A. Fink,
- Abstract要約: 大規模視覚言語モデル(LVLM)はこの問題に対処するための有望な技術である。
本稿では,LVLMの少数ショット機能を評価するための新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 2.3749905164931207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic extraction of key-value information from handwritten documents is a key challenge in document analysis. A reliable extraction is a prerequisite for the mass digitization efforts of many archives. Large Vision Language Models (LVLM) are a promising technology to tackle this problem especially in scenarios where little annotated training data is available. In this work, we present a novel dataset specifically designed to evaluate the few-shot capabilities of LVLMs. The CM1 documents are a historic collection of forms with handwritten entries created in Europe to administer the Care and Maintenance program after World War Two. The dataset establishes three benchmarks on extracting name and birthdate information and, furthermore, considers different training set sizes. We provide baseline results for two different LVLMs and compare performances to an established full-page extraction model. While the traditional full-page model achieves highly competitive performances, our experiments show that when only a few training samples are available the considered LVLMs benefit from their size and heavy pretraining and outperform the classical approach.
- Abstract(参考訳): 手書き文書からキー値情報を自動的に抽出することは、文書解析において重要な課題である。
信頼できる抽出は、多くのアーカイブの大量デジタル化努力の前提条件である。
大規模ビジョン言語モデル(LVLM)は、特に注釈付きトレーニングデータが少ないシナリオにおいて、この問題に対処するための有望な技術である。
本研究では,LVLMの少数ショット機能を評価するための新しいデータセットを提案する。
CM1文書(英語: CM1 document)は、第二次世界大戦後のケア・アンド・メンテナンス・プログラムを統括するためにヨーロッパで作成された手書きの文書をまとめた歴史資料である。
このデータセットは、名前と生年月日情報を抽出する3つのベンチマークを確立し、さらに異なるトレーニングセットのサイズについても検討する。
2つの異なるLVLMに対してベースライン結果を提供し、その性能を確立された全ページ抽出モデルと比較する。
従来のフルページモデルでは高い競争性能が達成されているが,本実験では,少数のトレーニングサンプルが利用可能である場合には,LVLMのサイズや事前学習によるメリットが得られ,従来のアプローチよりも優れていた。
関連論文リスト
- Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。
ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。
提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-03-21T04:56:24Z) - Is This Collection Worth My LLM's Time? Automatically Measuring Information Potential in Text Corpora [2.3251886193174114]
モデルトレーニングや微調整を必要とせずに,テキストコレクションから得られる潜在的な情報を評価する自動パイプラインを提案する。
提案手法はテキストから複数の選択質問(MCQ)を生成し,LLMの性能を原材料へのアクセスの有無に関わらず測定する。
本手法は,有用な新規情報を含むコレクションを効果的に識別し,データ取得と統合作業の優先順位付けを行うための実用的なツールを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:03:06Z) - SAIL: Sample-Centric In-Context Learning for Document Information Extraction [4.262937373782431]
ドキュメント情報抽出(DIE)は、ビジュアルリッチドキュメント(VRD)から構造化された情報を抽出することを目的としている。
以前のフルトレーニングアプローチは強い性能を示してきたが、見つからないデータへの一般化に苦労する可能性がある。
DIEのためのサンプル中心型インコンテキスト学習(SAIL)を提案し,事前学習モデルに対する正確なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-22T16:58:59Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。