論文の概要: Patchfinder: Leveraging Visual Language Models for Accurate Information Retrieval using Model Uncertainty
- arxiv url: http://arxiv.org/abs/2412.02886v2
- Date: Wed, 11 Dec 2024 19:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:11.388927
- Title: Patchfinder: Leveraging Visual Language Models for Accurate Information Retrieval using Model Uncertainty
- Title(参考訳): Patchfinder: モデル不確実性を利用した正確な情報検索のためのビジュアル言語モデルを活用する
- Authors: Roman Colman, Minh Vu, Manish Bhattarai, Martin Ma, Hari Viswanathan, Daniel O'Malley, Javier E. Santos,
- Abstract要約: 本稿では,視覚言語モデル(VLM)に基づいて情報抽出タスクに対処するアルゴリズムであるPatchFinderを提案する。
まず、VLMの出力の最大ソフトマックス確率に基づいて、信頼度に基づくスコアを考案し、その予測に対するモデルの信頼度を測定する。
PatchFinderは、42億のパラメータビジョン言語モデルであるPhi-3vを利用して、190のノイズの多いスキャンされたドキュメントのデータセットで94%の精度を達成することができる。
- 参考スコア(独自算出の注目度): 1.6546859901442998
- License:
- Abstract: For decades, corporations and governments have relied on scanned documents to record vast amounts of information. However, extracting this information is a slow and tedious process due to the overwhelming amount of documents. The rise of vision language models presents a way to efficiently and accurately extract the information out of these documents. The current automated workflow often requires a two-step approach involving the extraction of information using optical character recognition software, and subsequent usage of large language models for processing this information. Unfortunately, these methods encounter significant challenges when dealing with noisy scanned documents. The high information density of such documents often necessitates using computationally expensive language models to effectively reduce noise. In this study, we propose PatchFinder, an algorithm that builds upon Vision Language Models (VLMs) to address the information extraction task. First, we devise a confidence-based score, called Patch Confidence, based on the Maximum Softmax Probability of the VLMs' output to measure the model's confidence in its predictions. Then, PatchFinder utilizes that score to determine a suitable patch size, partition the input document into overlapping patches of that size, and generate confidence-based predictions for the target information. Our experimental results show that PatchFinder can leverage Phi-3v, a 4.2 billion parameter vision language model, to achieve an accuracy of 94% on our dataset of 190 noisy scanned documents, surpassing the performance of ChatGPT-4o by 18.5 percentage points.
- Abstract(参考訳): 何十年もの間、企業や政府は大量の情報を記録するためにスキャンされた文書に頼ってきた。
しかし、この情報を抽出するのは、文書の量が圧倒的に多いため、遅くて面倒な作業である。
視覚言語モデルの台頭は、これらの文書から効率的に正確に情報を抽出する方法を示す。
現在の自動化ワークフローでは、光学的文字認識ソフトウェアを用いて情報を抽出する2段階のアプローチと、この情報を処理するために大規模言語モデルを使用することがしばしば必要である。
残念ながら、これらの手法は、ノイズの多いスキャンされた文書を扱う際に重大な課題に直面する。
このような文書の高情報密度は、しばしばノイズを効果的に低減するために計算コストの高い言語モデルを使用する必要がある。
本研究では,視覚言語モデル(VLM)に基づいて情報抽出作業に対処するアルゴリズムであるPatchFinderを提案する。
まず、VLMの出力の最大ソフトマックス確率に基づいて、信頼度に基づくスコアを考案し、その予測に対するモデルの信頼度を測定する。
次に、PatchFinderはそのスコアを使用して、適切なパッチサイズを決定し、入力ドキュメントをそのサイズの重複パッチに分割し、ターゲット情報に対する信頼性ベースの予測を生成する。
実験の結果,PatchFinderはパラメータビジョン言語モデルであるPhi-3vを用いて190個のノイズスキャンされた文書のデータセット上で94%の精度を達成でき,ChatGPT-4oの性能を18.5ポイント上回ることがわかった。
関連論文リスト
- Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - End-to-End Document Classification and Key Information Extraction using
Assignment Optimization [0.0]
本稿では,フォームの文書分類とキー情報抽出を提案する。
テンプレートからの既知の情報を利用して、フォームからKIEを強化する。
提案手法は,ノイズの多いスキャンフォームの社内データセット上で検証される。
論文 参考訳(メタデータ) (2023-06-01T14:45:28Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。
このような情報をPythonのコンテキストで取得する上での課題について論じる。
ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文 参考訳(メタデータ) (2020-01-07T02:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。