論文の概要: ProUIE: A Macro-to-Micro Progressive Learning Method for LLM-based Universal Information Extraction
- arxiv url: http://arxiv.org/abs/2604.10633v1
- Date: Sun, 12 Apr 2026 13:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.140749
- Title: ProUIE: A Macro-to-Micro Progressive Learning Method for LLM-based Universal Information Extraction
- Title(参考訳): ProUIE: LLMに基づくユニバーサル情報抽出のためのマクロ・マイクロプログレッシブラーニング手法
- Authors: Wenda Liu, Zhigang Song, Shuai Nie, Guangyao Liu, Lisung Chen, Binyu Yang, Yaran Chen, Peng Zhou, Hongzhen Wang, Yuchen Liu, Wenyue Hu, Jiaming Xu, Runyu Shi, Ying Huang,
- Abstract要約: ProUIEはマクロ・マイクロ・プログレッシブ・ラーニング・アプローチであり、外部情報を導入することなく普遍的な情報抽出を改善する。
i)マクロレベル完全モデリング(CM)、(i)マクロレベル完全モデリング(CM)、(i)マクロレベル完全モデリング(EE)、(ii)メソレベルストリームリンドアライメント(SA)、(iii)マイクロレベル深層探査(DE)の3段階からなる。
- 参考スコア(独自算出の注目度): 16.440562636514564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based universal information extraction (UIE) methods often rely on additional information beyond the original training data, which increases training complexity yet often yields limited gains. To address this, we propose ProUIE, a Macro-to-Micro progressive learning approach that improves UIE without introducing any external information. ProUIE consists of three stages: (i) macro-level Complete Modeling (CM), which learns NER, RE, and EE along their intrinsic difficulty order on the full training data to build a unified extraction foundation, (ii) meso-level Streamlined Alignment (SA), which operates on sampled data with simplified target formats, streamlining and regularizing structured outputs to make them more concise and controllable, and (iii) micro-level Deep Exploration (DE), which applies GRPO with stepwise fine-grained rewards (SFR) over structural units to guide exploration and improve performance. Experiments on 36 public datasets show that ProUIE consistently improves unified extraction, outperforming strong instruction-tuned baselines on average for NER and RE while using a smaller backbone, and it further demonstrates clear gains in large-scale production-oriented information extraction.
- Abstract(参考訳): LLMベースのユニバーサル情報抽出(UIE)手法は、元のトレーニングデータ以外の追加情報に依存することが多いため、トレーニングの複雑さは増大するが、限られた利得が得られることが多い。
そこで我々は,外部情報を導入することなくUIEを改善するマクロ・マイクロ・プログレッシブ・ラーニング・アプローチであるProUIEを提案する。
ProUIEは3つのステージから構成される。
(i)NER、RE、EEを学習するマクロレベルの完全モデリング(CM)は、完全なトレーニングデータに基づいて固有の難易度に従って学習し、統合された抽出基盤を構築する。
(ii)メソレベルのStreamlined Alignment(SA)は、単純なターゲットフォーマットでサンプルデータを操作し、構造化された出力を合理化して、より簡潔で制御しやすくする。
三 構造ユニットに対してGRPOを段階的に微粒な報酬(SFR)で適用し、探索をガイドし、性能を向上させるマイクロレベル深層探査(DE)。
36の公開データセットの実験では、ProUIEは統一抽出を一貫して改善し、より小さなバックボーンを使用しながら、NERとREの平均的な命令調整ベースラインよりも優れた性能を示し、大規模生産指向の情報抽出において明らかな利益を示す。
関連論文リスト
- Knowledge Restoration-driven Prompt Optimization: Unlocking LLM Potential for Open-Domain Relational Triplet Extraction [4.01163688152329]
三重項のオープンマイニングは、事前に定義されたスキーマなしで構造化された知識の基礎となる。
既存の手法では曖昧さの脆弱性が示され、しばしば誤った抽出パターンが永続的である。
本稿では,Large Language Models (LLM) の抽出能力を継続的に改善するための知識再構成駆動型プロンプト最適化(KRPO)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T14:42:13Z) - Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。
木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。
実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文 参考訳(メタデータ) (2024-10-14T11:28:30Z) - RUIE: Retrieval-based Unified Information Extraction using Large Language Model [6.788855739199981]
統一された情報抽出は、構造化されていないテキストから構造化された情報を抽出することを目的としている。
本稿では,タスクの効率的な一般化にコンテキスト内学習を活用するフレームワークRUIE(Retrieval-based Unified Information extract)を提案する。
論文 参考訳(メタデータ) (2024-09-18T03:20:04Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。