Fugu-MT 論文翻訳(概要): Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs

論文の概要: Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs

arxiv url: http://arxiv.org/abs/2502.18179v1
Date: Tue, 25 Feb 2025 13:11:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:46.068035
Title: Problem Solved? Information Extraction Design Space for Layout-Rich Documents using LLMs
Title（参考訳）: 問題解決 : LLMを用いたレイアウトリッチ文書のための情報抽出設計空間
Authors: Gaye Colakoglu, Gürkan Solmaz, Jonathan Fürst,
Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたレイアウトリッチドキュメントからの情報抽出のための設計空間を定義し,検討する。我々の研究は、入力表現、チャンキング、プロンプト、LLMとマルチモーダルモデルの選択など、これらのコア課題のサブプロブレムを掘り下げている。レイアウトを意識した新しいIEテストスイートを通じて、さまざまな設計選択の結果を調べ、最先端(SoA)モデルであるLayoutLMv3に対してベンチマークする。
参考スコア（独自算出の注目度）: 0.28207011158655404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper defines and explores the design space for information extraction (IE) from layout-rich documents using large language models (LLMs). The three core challenges of layout-aware IE with LLMs are 1) data structuring, 2) model engagement, and 3) output refinement. Our study delves into the sub-problems within these core challenges, such as input representation, chunking, prompting, and selection of LLMs and multimodal models. It examines the outcomes of different design choices through a new layout-aware IE test suite, benchmarking against the state-of-art (SoA) model LayoutLMv3. The results show that the configuration from one-factor-at-a-time (OFAT) trial achieves near-optimal results with 14.1 points F1-score gain from the baseline model, while full factorial exploration yields only a slightly higher 15.1 points gain at around 36x greater token usage. We demonstrate that well-configured general-purpose LLMs can match the performance of specialized models, providing a cost-effective alternative. Our test-suite is freely available at https://github.com/gayecolakoglu/LayIE-LLM.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)を用いて,レイアウトに富んだ文書から情報抽出(IE)の設計空間を定義し,検討する。 LLMを使ったレイアウト対応IEの3つの課題 1)データ構造化 2)モデルエンゲージメント,及び 3) 出力改善。我々の研究は、入力表現、チャンキング、プロンプト、LLMとマルチモーダルモデルの選択など、これらのコア課題のサブプロブレムを掘り下げている。レイアウトを意識した新しいIEテストスイートを通じて、さまざまな設計選択の結果を調べ、最先端(SoA)モデルであるLayoutLMv3に対してベンチマークする。その結果, 1-factor-at-a-time (OFAT) 試験では, 14.1ポイントのF1スコアゲインがベースラインモデルから得られ, フルファクタル探索では, トークン使用率の約36倍の15.1ポイントしか得られなかった。構成の整った汎用LLMは、特殊なモデルの性能に適合し、コスト効率のよい代替手段となることを実証する。テストスイートはhttps://github.com/gayecolakoglu/LayIE-LLM.comで無償公開しています。

関連論文リスト

Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
Fusing LLM Capabilities with Routing Data [34.769509452692226]
FusionFactoryは、クエリレベルのフュージョン、思考レベルのフュージョン、モデルレベルのフュージョンの3つのレベルを持つ、系統的なフュージョンフレームワークである。実験の結果、FusionFactoryは14のベンチマークで最高のLCMを上回っている。
論文参考訳（メタデータ） (2025-07-14T17:58:02Z)
Tuning the Right Foundation Models is What you Need for Partial Label Learning [55.61644150441799]
部分ラベル学習は、不正確な監督を伴うデータセットから一般化可能な分類器を訓練しようとする。本研究では,13のアプローチによる11の基盤モデルの評価を,3つのシナリオ下で8つのベンチマークデータセット上で実証的に実施する。その結果, 基礎モデルを用いた場合, 2) 互いに著しく類似した性能を示し, 3) 様々なあいまいさレベルにわたって安定な性能を維持し, 4) 基礎モデルの選択や適応戦略に敏感であることがわかった。
論文参考訳（メタデータ） (2025-06-05T13:37:33Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
Smoothie: Label Free Language Model Routing [39.88041397482366]
大規模言語モデル(LLM)は、LLM入力が多くの異なるタスクにまたがるアプリケーションでますます使われている。 Smoothieは、ラベル付きデータを必要としない、監督にインスパイアされた弱いルーティング手法である。 SmoothieのLLMの品質スコアは、地上モデルの品質と相関している。
論文参考訳（メタデータ） (2024-12-06T01:06:37Z)
Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文参考訳（メタデータ） (2024-06-07T04:52:46Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph [28.13334909565348]
本稿では,特許データ内の本質的な依存関係を用いて,ドメイン固有グラフ法がモデルより優れていることを示す。本稿では, 精密な特許データ解析により, 微細粒度cLAim depeNdency (FLAN)グラフを提案する。
論文参考訳（メタデータ） (2024-04-22T17:22:31Z)
Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文参考訳（メタデータ） (2024-02-28T19:23:27Z)
GenSERP: Large Language Models for Whole Page Presentation [22.354349023665538]
GenSERPは、中間検索結果を動的に整理する数ショット設定で視覚を持つ大きな言語モデルを活用するフレームワークである。私たちのアプローチには,情報収集,回答生成,採点フェーズという3つの主要な段階があります。
論文参考訳（メタデータ） (2024-02-22T05:41:24Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-16T11:31:58Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。