論文の概要: Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs
- arxiv url: http://arxiv.org/abs/2502.18179v1
- Date: Tue, 25 Feb 2025 13:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:20.266822
- Title: Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs
- Title(参考訳): 問題解決 : LLMを用いたレイアウトリッチ文書のための情報抽出設計空間
- Authors: Gaye Colakoglu, Gürkan Solmaz, Jonathan Fürst,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたレイアウトリッチドキュメントからの情報抽出のための設計空間を定義し,検討する。
我々の研究は、入力表現、チャンキング、プロンプト、LLMとマルチモーダルモデルの選択など、これらのコア課題のサブプロブレムを掘り下げている。
レイアウトを意識した新しいIEテストスイートを通じて、さまざまな設計選択の結果を調べ、最先端(SoA)モデルであるLayoutLMv3に対してベンチマークする。
- 参考スコア(独自算出の注目度): 0.28207011158655404
- License:
- Abstract: This paper defines and explores the design space for information extraction (IE) from layout-rich documents using large language models (LLMs). The three core challenges of layout-aware IE with LLMs are 1) data structuring, 2) model engagement, and 3) output refinement. Our study delves into the sub-problems within these core challenges, such as input representation, chunking, prompting, and selection of LLMs and multimodal models. It examines the outcomes of different design choices through a new layout-aware IE test suite, benchmarking against the state-of-art (SoA) model LayoutLMv3. The results show that the configuration from one-factor-at-a-time (OFAT) trial achieves near-optimal results with 14.1 points F1-score gain from the baseline model, while full factorial exploration yields only a slightly higher 15.1 points gain at around 36x greater token usage. We demonstrate that well-configured general-purpose LLMs can match the performance of specialized models, providing a cost-effective alternative. Our test-suite is freely available at https://github.com/gayecolakoglu/LayIE-LLM.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いて,レイアウトに富んだ文書から情報抽出(IE)の設計空間を定義し,検討する。
LLMを使ったレイアウト対応IEの3つの課題
1)データ構造化
2)モデルエンゲージメント,及び
3) 出力改善。
我々の研究は、入力表現、チャンキング、プロンプト、LLMとマルチモーダルモデルの選択など、これらのコア課題のサブプロブレムを掘り下げている。
レイアウトを意識した新しいIEテストスイートを通じて、さまざまな設計選択の結果を調べ、最先端(SoA)モデルであるLayoutLMv3に対してベンチマークする。
その結果, 1-factor-at-a-time (OFAT) 試験では, 14.1ポイントのF1スコアゲインがベースラインモデルから得られ, フルファクタル探索では, トークン使用率の約36倍の15.1ポイントしか得られなかった。
構成の整った汎用LLMは、特殊なモデルの性能に適合し、コスト効率のよい代替手段となることを実証する。
テストスイートはhttps://github.com/gayecolakoglu/LayIE-LLM.comで無償公開しています。
関連論文リスト
- PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Smoothie: Label Free Language Model Routing [39.88041397482366]
大規模言語モデル(LLM)は、LLM入力が多くの異なるタスクにまたがるアプリケーションでますます使われている。
Smoothieは、ラベル付きデータを必要としない、監督にインスパイアされた弱いルーティング手法である。
SmoothieのLLMの品質スコアは、地上モデルの品質と相関している。
論文 参考訳(メタデータ) (2024-12-06T01:06:37Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph [28.13334909565348]
本稿では,特許データ内の本質的な依存関係を用いて,ドメイン固有グラフ法がモデルより優れていることを示す。
本稿では, 精密な特許データ解析により, 微細粒度cLAim depeNdency (FLAN)グラフを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:22:31Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - GenSERP: Large Language Models for Whole Page Presentation [22.354349023665538]
GenSERPは、中間検索結果を動的に整理する数ショット設定で視覚を持つ大きな言語モデルを活用するフレームワークである。
私たちのアプローチには,情報収集,回答生成,採点フェーズという3つの主要な段階があります。
論文 参考訳(メタデータ) (2024-02-22T05:41:24Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。