論文の概要: PARSE: LLM Driven Schema Optimization for Reliable Entity Extraction
- arxiv url: http://arxiv.org/abs/2510.08623v1
- Date: Wed, 08 Oct 2025 09:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.213394
- Title: PARSE: LLM Driven Schema Optimization for Reliable Entity Extraction
- Title(参考訳): PARSE: 信頼性の高いエンティティ抽出のためのLLM駆動型スキーマ最適化
- Authors: Anubhav Shrimal, Aryan Jain, Soumyajit Chowdhury, Promod Yenigalla,
- Abstract要約: 近年のアプローチでは,制約デコーディングや強化学習といった手法を用いて,既存のスキーマを用いたタスク抽出に,大規模言語モデルを直接適用している。しかし,スキーマを人間開発者用に設計された静的コントラクトとして扱うことにより,最適抽出性能,頻繁な幻覚,不完全あるいは不完全仕様を含む場合の信頼性の低いエージェント動作が実現されている。
ARCHITECTは、RELAYを介して後方互換性を維持しながら、消費のためのスキーマを自律的に最適化するシステムであり、SCOPEは静的およびLLMベースの抽出を実装し、モデル間で10%のフレームワーク改善を実現し、最初の再試行で抽出エラーを92%削減する。
- 参考スコア(独自算出の注目度): 3.314906482758872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured information extraction from unstructured text is critical for emerging Software 3.0 systems where LLM agents autonomously interact with APIs and tools. Recent approaches apply large language models directly to extraction tasks using existing JSON schemas, often with constraint decoding or reinforcement learning approaches to ensure syntactic validity, but treat JSON schemas as static contracts designed for human developers, leading to suboptimal extraction performance, frequent hallucinations, and unreliable agent behavior when schemas contain ambiguous or incomplete specifications. We recognize that JSON schemas themselves are a form of natural language understanding contract that encodes rules, relationships, and expectations about data structure contracts that LLMs should be able to both interpret and systematically improve. Consequently, we develop PARSE (Parameter Automated Refinement and Schema Extraction), a novel system with two synergistic components: ARCHITECT, which autonomously optimizes JSON schemas for LLM consumption while maintaining backward compatibility through RELAY (an integrated code generation system), and SCOPE, which implements reflection-based extraction with combined static and LLM-based guardrails. We evaluate PARSE qualitatively and quantitatively on three datasets including Schema-Guided Dialogue (SGD), Structured Web Data Extraction (SWDE), and internal retail conversation data, and find that it achieves up to 64.7% improvement in extraction accuracy on SWDE with combined framework improvements reaching 10% across models, while reducing extraction errors by 92% within the first retry and and maintaining practical latency.
- Abstract(参考訳): 構造化されていないテキストから構造化された情報抽出は、LLMエージェントがAPIやツールと自律的に対話するSoftware 3.0システムにとって重要である。
最近のアプローチでは、既存のJSONスキーマを使用してタスクを抽出するために、しばしば制約デコーディングや強化学習アプローチを用いて、構文的妥当性を保証するために、大きな言語モデルを直接適用していますが、JSONスキーマを人間開発者用に設計された静的コントラクトとして扱います。
我々は、JSONスキーマ自体が、ルール、関係、データ構造契約に対する期待をエンコードする自然言語理解契約の形式であり、LCMが解釈と体系的に改善できるべきであることを認識しています。
その結果,SPSE (Parameter Automated Refinement and Schema extract) は,RELAY (Integrated code generation system) を通じて後方互換性を維持しつつ,LPM消費のためのJSONスキーマを自律的に最適化する ARCHITECT と,静的およびLCMベースのガードレールを組み合わせたリフレクションベース抽出を実装したSCOPE の2つの相乗的コンポーネントを備えた新しいシステムである。
SGD(Schema-Guided Dialogue)、構造化Webデータ抽出(Structured Web Data extract, SWDE)、および内部小売の会話データを含む3つのデータセットに対してPARSEを質的かつ定量的に評価し、SWDEにおける抽出精度を最大64.7%向上し、モデル間で10%向上した。
関連論文リスト
- AI-assisted JSON Schema Creation and Mapping [0.0]
本稿では,大規模言語モデル(LLM)と決定論的手法を組み合わせて,ユーザによる自然言語入力に基づく生成,修正,スキーママッピングを実現するハイブリッドアプローチを提案する。
この作業は、非専門家のための構造化データモデリングとデータ統合に対する障壁を著しく減らします。
論文 参考訳(メタデータ) (2025-08-07T09:27:10Z) - Data Dependency Inference for Industrial Code Generation Based on UML Sequence Diagrams [31.902404948282925]
本稿では,API2Depという新しいステップバイステップコード生成フレームワークを提案する。
まず、サービス指向アーキテクチャに適した拡張Unified Modeling Language (UML) APIダイアグラムを紹介します。
次に、データフローの重要な役割を認識し、専用のデータ依存推論タスクを導入する。
論文 参考訳(メタデータ) (2025-08-05T12:28:23Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。