論文の概要: Patchfinder: Leveraging Visual Language Models for Accurate Information Retrieval using Model Uncertainty
- arxiv url: http://arxiv.org/abs/2412.02886v3
- Date: Fri, 13 Dec 2024 21:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:12.188527
- Title: Patchfinder: Leveraging Visual Language Models for Accurate Information Retrieval using Model Uncertainty
- Title(参考訳): Patchfinder: モデル不確実性を利用した正確な情報検索のためのビジュアル言語モデルを活用する
- Authors: Roman Colman, Minh Vu, Manish Bhattarai, Martin Ma, Hari Viswanathan, Daniel O'Malley, Javier E. Santos,
- Abstract要約: 本稿では,視覚言語モデル(VLM)に基づいて情報抽出を改善するアルゴリズムであるPatchFinderを提案する。
まず、VLMの出力の最大ソフトマックス確率に基づいて、信頼度に基づくスコアを考案し、その予測に対するモデルの信頼度を測定する。
このメトリックを使用して、PatchFinderは適切なパッチサイズを決定し、入力ドキュメントをオーバーラップしたパッチに分割し、ターゲット情報に対する信頼性ベースの予測を生成する。
- 参考スコア(独自算出の注目度): 1.6546859901442998
- License:
- Abstract: For decades, corporations and governments have relied on scanned documents to record vast amounts of information. However, extracting this information is a slow and tedious process due to the sheer volume and complexity of these records. The rise of Vision Language Models (VLMs) presents a way to efficiently and accurately extract the information out of these documents. The current automated workflow often requires a two-step approach involving the extraction of information using optical character recognition software and subsequent usage of large language models for processing this information. Unfortunately, these methods encounter significant challenges when dealing with noisy scanned documents, often requiring computationally expensive language models to handle high information density effectively. In this study, we propose PatchFinder, an algorithm that builds upon VLMs to improve information extraction. First, we devise a confidence-based score, called Patch Confidence, based on the Maximum Softmax Probability of the VLMs' output to measure the model's confidence in its predictions. Using this metric, PatchFinder determines a suitable patch size, partitions the input document into overlapping patches, and generates confidence-based predictions for the target information. Our experimental results show that PatchFinder, leveraging Phi-3v, a 4.2-billion-parameter VLM, achieves an accuracy of 94% on our dataset of 190 noisy scanned documents, outperforming ChatGPT-4o by 18.5 percentage points.
- Abstract(参考訳): 何十年もの間、企業や政府は大量の情報を記録するためにスキャンされた文書に頼ってきた。
しかし、これらの記録の量と複雑さのために、この情報を抽出するのは遅くて面倒な作業である。
視覚言語モデル(VLM)の台頭は、これらの文書から効率的に正確に情報を抽出する方法を提供する。
現在の自動化ワークフローでは、光学的文字認識ソフトウェアを用いた情報抽出と、それを扱うための大規模言語モデルの使用を含む2段階のアプローチが必要となることが多い。
残念ながら、これらの手法は、ノイズの多いスキャンされた文書を扱う場合、しばしば高情報密度を効果的に扱うために計算コストの高い言語モデルを必要とする。
本研究では,VLMに基づいて情報抽出を改善するアルゴリズムであるPatchFinderを提案する。
まず、VLMの出力の最大ソフトマックス確率に基づいて、信頼度に基づくスコアを考案し、その予測に対するモデルの信頼度を測定する。
このメトリックを使用して、PatchFinderは適切なパッチサイズを決定し、入力ドキュメントをオーバーラップしたパッチに分割し、ターゲット情報に対する信頼性ベースの予測を生成する。
実験の結果、PatchFinderは4.2ビリオンパラメータのVLMであるPhi-3vを利用して、190個のノイズスキャンされた文書のデータセットに対して94%の精度を達成し、ChatGPT-4oを18.5ポイント上回った。
関連論文リスト
- Noise-Aware Training of Layout-Aware Language Models [7.387030600322538]
ドキュメントから名前付きエンティティを識別するカスタム抽出器をトレーニングするには、テキストとビジュアルのモダリティで注釈付けされたターゲットドキュメントタイプの多数のインスタンスが必要である。
本稿では,ノイズアウェアトレーニング手法,NATを提案する。
NATでトレーニングされたモデルは、パフォーマンスにおいて堅牢であるだけでなく、マクロF1スコアの点で、トランスファーラーニングベースラインを最大6%上回ります。
論文 参考訳(メタデータ) (2024-03-30T23:06:34Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - End-to-End Document Classification and Key Information Extraction using
Assignment Optimization [0.0]
本稿では,フォームの文書分類とキー情報抽出を提案する。
テンプレートからの既知の情報を利用して、フォームからKIEを強化する。
提案手法は,ノイズの多いスキャンフォームの社内データセット上で検証される。
論文 参考訳(メタデータ) (2023-06-01T14:45:28Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。