論文の概要: Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs
- arxiv url: http://arxiv.org/abs/2502.18179v1
- Date: Tue, 25 Feb 2025 13:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 17:42:46.068035
- Title: Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs
- Title(参考訳): 問題解決 : LLMを用いたレイアウトリッチ文書のための情報抽出設計空間
- Authors: Gaye Colakoglu, Gürkan Solmaz, Jonathan Fürst,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたレイアウトリッチドキュメントからの情報抽出のための設計空間を定義し,検討する。
我々の研究は、入力表現、チャンキング、プロンプト、LLMとマルチモーダルモデルの選択など、これらのコア課題のサブプロブレムを掘り下げている。
レイアウトを意識した新しいIEテストスイートを通じて、さまざまな設計選択の結果を調べ、最先端(SoA)モデルであるLayoutLMv3に対してベンチマークする。
- 参考スコア(独自算出の注目度): 0.28207011158655404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper defines and explores the design space for information extraction (IE) from layout-rich documents using large language models (LLMs). The three core challenges of layout-aware IE with LLMs are 1) data structuring, 2) model engagement, and 3) output refinement. Our study delves into the sub-problems within these core challenges, such as input representation, chunking, prompting, and selection of LLMs and multimodal models. It examines the outcomes of different design choices through a new layout-aware IE test suite, benchmarking against the state-of-art (SoA) model LayoutLMv3. The results show that the configuration from one-factor-at-a-time (OFAT) trial achieves near-optimal results with 14.1 points F1-score gain from the baseline model, while full factorial exploration yields only a slightly higher 15.1 points gain at around 36x greater token usage. We demonstrate that well-configured general-purpose LLMs can match the performance of specialized models, providing a cost-effective alternative. Our test-suite is freely available at https://github.com/gayecolakoglu/LayIE-LLM.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いて,レイアウトに富んだ文書から情報抽出(IE)の設計空間を定義し,検討する。
LLMを使ったレイアウト対応IEの3つの課題
1)データ構造化
2)モデルエンゲージメント,及び
3) 出力改善。
我々の研究は、入力表現、チャンキング、プロンプト、LLMとマルチモーダルモデルの選択など、これらのコア課題のサブプロブレムを掘り下げている。
レイアウトを意識した新しいIEテストスイートを通じて、さまざまな設計選択の結果を調べ、最先端(SoA)モデルであるLayoutLMv3に対してベンチマークする。
その結果, 1-factor-at-a-time (OFAT) 試験では, 14.1ポイントのF1スコアゲインがベースラインモデルから得られ, フルファクタル探索では, トークン使用率の約36倍の15.1ポイントしか得られなかった。
構成の整った汎用LLMは、特殊なモデルの性能に適合し、コスト効率のよい代替手段となることを実証する。
テストスイートはhttps://github.com/gayecolakoglu/LayIE-LLM.comで無償公開しています。
関連論文リスト
- Slm-mux: Orchestrating small language models for reasoning [52.461958665375896]
小型言語モデル(SLM)のオーケストレーションのための3段階的アプローチを提案する。
まず,複数のSLMを効果的にコーディネートするマルチモデルアーキテクチャであるSLM-MUXを紹介する。
SLM-MUXはわずか2つのSLMSでQwen 2.5 72BをGPQAとGSM8Kで上回り、MATHでのパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2025-10-06T17:49:58Z) - DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression [7.1654056866441245]
大規模言語モデル(LLM)は、一般的なタスクでは優れているが、ドメイン固有のタスクでは苦労し、特定のデータに対して微調整を必要とする。
この課題に対処するデータ・モデル圧縮フレームワーク(DaMoC)を導入します。
トレーニング時間に約20倍の時間を節約しながら,最適なLLMを選択することができることを示す。
論文 参考訳(メタデータ) (2025-09-01T08:06:49Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Fusing LLM Capabilities with Routing Data [34.769509452692226]
FusionFactoryは、クエリレベルのフュージョン、思考レベルのフュージョン、モデルレベルのフュージョンの3つのレベルを持つ、系統的なフュージョンフレームワークである。
実験の結果、FusionFactoryは14のベンチマークで最高のLCMを上回っている。
論文 参考訳(メタデータ) (2025-07-14T17:58:02Z) - Tuning the Right Foundation Models is What you Need for Partial Label Learning [55.61644150441799]
部分ラベル学習は、不正確な監督を伴うデータセットから一般化可能な分類器を訓練しようとする。
本研究では,13のアプローチによる11の基盤モデルの評価を,3つのシナリオ下で8つのベンチマークデータセット上で実証的に実施する。
その結果, 基礎モデルを用いた場合, 2) 互いに著しく類似した性能を示し, 3) 様々なあいまいさレベルにわたって安定な性能を維持し, 4) 基礎モデルの選択や適応戦略に敏感であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T13:37:33Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - When Do LLMs Help With Node Classification? A Comprehensive Analysis [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。
10のホモ親和性データセット、4つのヘテロ親和性データセット、8つのLLMアルゴリズム、8つの古典的ベースライン、3つの学習パラダイムを含む。
その結果,(1) LLMに基づく手法は, 半教師付き環境では従来手法よりも優れているが, 教師付き環境では優位性が低い, という8つの知見が得られた。
論文 参考訳(メタデータ) (2025-02-02T15:56:05Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Smoothie: Label Free Language Model Routing [39.88041397482366]
大規模言語モデル(LLM)は、LLM入力が多くの異なるタスクにまたがるアプリケーションでますます使われている。
Smoothieは、ラベル付きデータを必要としない、監督にインスパイアされた弱いルーティング手法である。
SmoothieのLLMの品質スコアは、地上モデルの品質と相関している。
論文 参考訳(メタデータ) (2024-12-06T01:06:37Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - The Fellowship of the LLMs: Multi-Model Workflows for Synthetic Preference Optimization Dataset Generation [4.524402497958597]
本稿では,マルチモデルを用いた合成優先度最適化(PO)データセットの生成手法を提案する。
データセット生成プロセスの自動化と向上において,これらの有効性と可能性を評価する。
論文 参考訳(メタデータ) (2024-08-16T12:01:55Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph [28.13334909565348]
本稿では,特許データ内の本質的な依存関係を用いて,ドメイン固有グラフ法がモデルより優れていることを示す。
本稿では, 精密な特許データ解析により, 微細粒度cLAim depeNdency (FLAN)グラフを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:22:31Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - GenSERP: Large Language Models for Whole Page Presentation [22.354349023665538]
GenSERPは、中間検索結果を動的に整理する数ショット設定で視覚を持つ大きな言語モデルを活用するフレームワークである。
私たちのアプローチには,情報収集,回答生成,採点フェーズという3つの主要な段階があります。
論文 参考訳(メタデータ) (2024-02-22T05:41:24Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。