論文の概要: SAIL: Sample-Centric In-Context Learning for Document Information Extraction
- arxiv url: http://arxiv.org/abs/2412.17092v1
- Date: Sun, 22 Dec 2024 16:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:00.524887
- Title: SAIL: Sample-Centric In-Context Learning for Document Information Extraction
- Title(参考訳): SAIL:文書情報抽出のためのサンプル中心型インコンテキスト学習
- Authors: Jinyu Zhang, Zhiyuan You, Jize Wang, Xinyi Le,
- Abstract要約: ドキュメント情報抽出(DIE)は、ビジュアルリッチドキュメント(VRD)から構造化された情報を抽出することを目的としている。
以前のフルトレーニングアプローチは強い性能を示してきたが、見つからないデータへの一般化に苦労する可能性がある。
DIEのためのサンプル中心型インコンテキスト学習(SAIL)を提案し,事前学習モデルに対する正確なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 4.262937373782431
- License:
- Abstract: Document Information Extraction (DIE) aims to extract structured information from Visually Rich Documents (VRDs). Previous full-training approaches have demonstrated strong performance but may struggle with generalization to unseen data. In contrast, training-free methods leverage powerful pre-trained models like Large Language Models (LLMs) to address various downstream tasks with only a few examples. Nonetheless, training-free methods for DIE encounter two primary challenges: (1) understanding the complex relationship between layout and textual elements in VRDs, and (2) providing accurate guidance to pre-trained models. To address these challenges, we propose Sample-centric In-context Learning (SAIL) for DIE. SAIL introduces a fine-grained entity-level textual similarity to facilitate in-depth text analysis by LLMs and incorporates layout similarity to enhance the analysis of layouts in VRDs. Additionally, SAIL formulates a unified In-Context Learning (ICL) prompt template for various sample-centric examples, enabling tailored prompts that deliver precise guidance to pre-trained models for each sample. Extensive experiments on FUNSD, CORD, and SROIE benchmarks with various base models (e.g., LLMs) indicate that our method outperforms training-free baselines, even closer to the full-training methods. The results show the superiority and generalization of our method.
- Abstract(参考訳): ドキュメント情報抽出(DIE)は、ビジュアルリッチドキュメント(VRD)から構造化された情報を抽出することを目的としている。
以前のフルトレーニングアプローチは強い性能を示してきたが、見つからないデータへの一般化に苦労する可能性がある。
対照的に、トレーニングフリーな手法は、Large Language Models (LLMs)のような強力な事前訓練されたモデルを利用して、いくつかの例で様々な下流タスクに対処する。
それにもかかわらず、DIEのためのトレーニング不要な手法は、(1)VRDにおけるレイアウトとテキスト要素の複雑な関係を理解すること、(2)事前訓練されたモデルに対する正確なガイダンスを提供すること、の2つの課題に直面する。
これらの課題に対処するため、DIEのためのサンプル中心型インコンテキスト学習(SAIL)を提案する。
SAILは、LCMによる詳細なテキスト分析を容易にするために、細粒度のエンティティレベルのテキスト類似性を導入し、レイアウト類似性を導入し、VRDにおけるレイアウト分析を強化する。
さらに、SAILは、様々なサンプル中心のサンプルに対して統合されたインコンテキスト学習プロンプトテンプレートを定式化し、各サンプルに対して事前訓練されたモデルに正確なガイダンスを提供する調整されたプロンプトを可能にする。
FUNSD, CORD, SROIE ベンチマークを多種多様なベースモデル (例えば LLM) で拡張実験した結果,本手法はトレーニング不要のベースラインよりも優れ, フルトレーニング手法に近い結果が得られた。
その結果,本手法の優位性と一般化が示された。
関連論文リスト
- Exploring Large Language Models for Product Attribute Value Identification [25.890927969633196]
製品属性値識別(PAVI)は、製品情報から属性とその値を自動的に識別する。
既存の手法は、BARTやT5のような微調整済みの言語モデルに依存している。
本稿では, LLaMA や Mistral などの大規模言語モデル (LLM) をデータ効率・ロバストなPAVI 代替品として検討する。
論文 参考訳(メタデータ) (2024-09-19T12:09:33Z) - RUIE: Retrieval-based Unified Information Extraction using Large Language Model [6.788855739199981]
統一された情報抽出は、単一のモデルまたはフレームワークを使用して全ての情報抽出タスクを完了することを目的としている。
本稿では,テキスト内学習を活用して迅速な一般化を実現するフレームワークRUIE(Retrieval-based Unified Information extract)を提案する。
8つのホールドアウトデータセットの実験結果から、未確認タスクを一般化するRUIEの有効性が示された。
論文 参考訳(メタデータ) (2024-09-18T03:20:04Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - SPEC: Summary Preference Decomposition for Low-Resource Abstractive
Summarization [21.037841262371355]
本稿では,ソースコーパスからターゲットコーパスへ数発の学習プロセスを転送するフレームワークを提案する。
提案手法は, ROUGE-1/2/Lを10例, 100例で平均改良した6種類のコーパスに対して, 30.11%/33.95%/27.51%, 26.74%/31.14%/24.48%の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T14:07:03Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。