論文の概要: Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models
- arxiv url: http://arxiv.org/abs/2412.13859v1
- Date: Wed, 18 Dec 2024 13:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:55.787635
- Title: Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models
- Title(参考訳): Zero-Shot PromptingとFew-Shot Fine-Tuning:大規模言語モデルを用いた文書画像分類の再検討
- Authors: Anna Scius-Bertrand, Michael Jungo, Lars Vögtlin, Jean-Marc Spat, Andreas Fischer,
- Abstract要約: スキャンされた文書の分類は、画像、レイアウト、文書理解のためのテキスト分析を含む難しい問題である。
特定のベンチマークデータセット、特にRVL-CDIPでは、最先端のパフォーマンスに近づきつつある。
- 参考スコア(独自算出の注目度): 0.2517406173566782
- License:
- Abstract: Classifying scanned documents is a challenging problem that involves image, layout, and text analysis for document understanding. Nevertheless, for certain benchmark datasets, notably RVL-CDIP, the state of the art is closing in to near-perfect performance when considering hundreds of thousands of training samples. With the advent of large language models (LLMs), which are excellent few-shot learners, the question arises to what extent the document classification problem can be addressed with only a few training samples, or even none at all. In this paper, we investigate this question in the context of zero-shot prompting and few-shot model fine-tuning, with the aim of reducing the need for human-annotated training samples as much as possible.
- Abstract(参考訳): スキャンされた文書の分類は、画像、レイアウト、文書理解のためのテキスト分析を含む難しい問題である。
それでも、特定のベンチマークデータセット、特にRVL-CDIPでは、数十万のトレーニングサンプルを考慮すると、最先端のパフォーマンスがほぼ完璧な状態に近づいている。
少数の学習者にとって優れた大規模言語モデル(LLM)の出現により、文書分類問題に対処できる範囲は、ほんの数例のトレーニングサンプルでのみか、あるいは全くないかに限られる。
本稿では,ゼロショットプロンプトと少数ショットモデルファインチューニングの文脈でこの問題を考察し,人間による注釈付きトレーニングサンプルの必要性を極力低減することを目的とした。
関連論文リスト
- Recurrent Few-Shot model for Document Verification [1.9686770963118383]
汎用ID, 旅行, 文書画像, 映像ベースの検証システムはまだ, 解決すべき問題として十分な性能を達成できていない。
本稿では,数ショットのシナリオで偽文書を検出可能なリカレントベースモデルを提案する。
SIDTDとFinditデータセットの予備的な結果は、このタスクのためにこのモデルの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-03T13:05:27Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Noise-Aware Training of Layout-Aware Language Models [7.387030600322538]
ドキュメントから名前付きエンティティを識別するカスタム抽出器をトレーニングするには、テキストとビジュアルのモダリティで注釈付けされたターゲットドキュメントタイプの多数のインスタンスが必要である。
本稿では,ノイズアウェアトレーニング手法,NATを提案する。
NATでトレーニングされたモデルは、パフォーマンスにおいて堅牢であるだけでなく、マクロF1スコアの点で、トランスファーラーニングベースラインを最大6%上回ります。
論文 参考訳(メタデータ) (2024-03-30T23:06:34Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Improving Handwritten OCR with Training Samples Generated by Glyph
Conditional Denoising Diffusion Probabilistic Model [10.239782333441031]
トレーニングサンプルを生成するための拡散確率モデル(DDPM)を提案する。
このモデルは、印刷された文字と手書き画像のマッピングを作成する。
合成画像は、必ずしもグリフ条件付き画像と一致しない。
本稿では,これらのサンプルをトレーニングセットに高い信頼性で付加するプログレッシブデータフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T04:18:30Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T05:43:29Z) - One of these (Few) Things is Not Like the Others [0.0]
本稿では,少数の例に基づいて新しい画像の分類と,それ以前のどのグループにも属さない画像の認識を両立できるモデルを提案する。
我々は,低消費電力デバイス上で動作可能な小型のセットアップを含む,モデルアーキテクチャのスペクトル上での性能を評価する。
論文 参考訳(メタデータ) (2020-05-22T21:49:35Z) - Any-Shot Object Detection [81.88153407655334]
「アニーショット検出」とは、全く見えず、数発のカテゴリが推論中に同時に共起できる場所である。
我々は、ゼロショットと少数ショットの両方のオブジェクトクラスを同時に検出できる、統合された任意のショット検出モデルを提案する。
我々のフレームワークは、ゼロショット検出とFewショット検出タスクにのみ使用できる。
論文 参考訳(メタデータ) (2020-03-16T03:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。