論文の概要: Extract-0: A Specialized Language Model for Document Information Extraction
- arxiv url: http://arxiv.org/abs/2509.22906v1
- Date: Fri, 26 Sep 2025 20:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.930037
- Title: Extract-0: A Specialized Language Model for Document Information Extraction
- Title(参考訳): Extract-0: 文書情報抽出のための特殊言語モデル
- Authors: Henrique Godoy,
- Abstract要約: 本稿では,文書情報抽出に特化して最適化された7ビリオンパラメータ言語モデルであるExtract-0を提案する。
Extract-0は、GPT-4.1 (0.457)、o3 (0.464)、GPT-4.1-2025 (0.459)を上回り、1000種類の文書抽出タスクのベンチマークで0.573の平均的な報酬を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Extract-0, a 7-billion parameter language model specifically optimized for document information extraction that achieves performance exceeding models with parameter counts several orders of magnitude larger. Through a novel combination of synthetic data generation, supervised fine-tuning with Low-Rank Adaptation (LoRA), and reinforcement learning via Group Relative Policy Optimization (GRPO), Extract-0 achieves a mean reward of 0.573 on a benchmark of 1,000 diverse document extraction tasks, outperforming GPT-4.1 (0.457), o3 (0.464), and GPT-4.1-2025 (0.459). The training methodology employs a memory-preserving synthetic data generation pipeline that produces 280,128 training examples from diverse document sources, followed by parameterefficient fine-tuning that modifies only 0.53% of model weights (40.4M out of 7.66B parameters). The reinforcement learning phase introduces a novel semantic similarity-based reward function that handles the inherent ambiguity in information extraction tasks. This research demonstrates that task-specific optimization can yield models that surpass general-purpose systems while requiring substantially fewer computational resource.
- Abstract(参考訳): 本稿では、7ビリオンパラメータ言語モデルであるExtract-0を提案する。
合成データ生成の新たな組み合わせ、LoRA(Lo-Rank Adaptation)による教師付き微調整、グループ相対政策最適化(GRPO)による強化学習により、Extract-0は1000種類の文書抽出タスクのベンチマークで0.573の報酬を達成し、GPT-4.1(0.457)、o3(0.464)、GPT-4.1-2025(0.459)を上回った。
トレーニング手法では、様々なドキュメントソースから280,128のトレーニング例を生成するメモリ保存型合成データ生成パイプラインを使用し、続いてパラメータ係数の微調整を行い、モデルの重みの0.53%しか変更していない(7.66Bパラメータのうち40.4M)。
強化学習フェーズでは,情報抽出作業における固有曖昧性を扱う意味的類似性に基づく報酬関数が導入された。
本研究は,タスク固有の最適化により,計算資源を大幅に削減しつつ,汎用システムを超えるモデルが得られることを示す。
関連論文リスト
- A Reproducible, Scalable Pipeline for Synthesizing Autoregressive Model Literature [0.0]
自己回帰生成モデルは何千もの論文を生み出しており、手動による文献調査や再生研究はますます非現実的になっている。
パブリックリポジトリから候補文書を自動的に検索する,完全オープンソースで再現可能なパイプラインを提案する。
最大1000の論文のコーパスの実験では、8人のCPUワーカーによるほぼ直線的なスケーラビリティが実証されている。
論文 参考訳(メタデータ) (2025-08-06T16:33:20Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - Enhanced Multi-Tuple Extraction for Alloys: Integrating Pointer Networks and Augmented Attention [6.938202451113495]
本稿では,MatSciBERTに基づく抽出モデルとポインタとアロケーションモデルを組み合わせた新しいフレームワークを提案する。
抽出実験では,データセット間のF1スコアが0.947,0.93,0.753であった。
これらの結果は、正確で構造化された情報を提供するためのモデルの能力を強調します。
論文 参考訳(メタデータ) (2025-03-10T02:39:06Z) - Leveraging large language models for structured information extraction from pathology reports [0.0]
乳がん病理組織学的報告から構造情報を抽出する際の大規模言語モデルの精度を評価する。
構造化情報抽出のためのオープンソースツールは、自然言語を使って非プログラマがカスタマイズできる。
論文 参考訳(メタデータ) (2025-02-14T21:46:02Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2024-02-28T09:27:29Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。