論文の概要: An Agentic Toolkit for Adaptive Information Extraction from Regulatory Documents
- arxiv url: http://arxiv.org/abs/2509.11773v1
- Date: Mon, 15 Sep 2025 10:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.236609
- Title: An Agentic Toolkit for Adaptive Information Extraction from Regulatory Documents
- Title(参考訳): 規制文書からの適応情報抽出のためのエージェントツールキット
- Authors: Gaye Colakoglu, Gürkan Solmaz, Jonathan Fürst,
- Abstract要約: EUの規制により義務付けられ、建設製品の性能を認定する文書(DoP)の宣言。
内容のいくつかは標準化されているが、DoPはレイアウト、言語、スキーマ、フォーマットが多岐にわたっており、自動キーバリューペア抽出(KVP)と質問応答(QA)の課題を提起している。
ドメイン固有でステートフルなエージェントシステムは、プランナー-エグゼクタ-レスポンダアーキテクチャを通じてこれらの課題に対処します。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Declaration of Performance (DoP) documents, mandated by EU regulation, certify the performance of construction products. While some of their content is standardized, DoPs vary widely in layout, language, schema, and format, posing challenges for automated key-value pair extraction (KVP) and question answering (QA). Existing static or LLM-only IE pipelines often hallucinate and fail to adapt to this structural diversity. Our domain-specific, stateful agentic system addresses these challenges through a planner-executor-responder architecture. The system infers user intent, detects document modality, and orchestrates tools dynamically for robust, traceable reasoning while avoiding tool misuse or execution loops. Evaluation on a curated DoP dataset demonstrates improved robustness across formats and languages, offering a scalable solution for structured data extraction in regulated workflows.
- Abstract(参考訳): EUの規制により義務付けられ、建設製品の性能を認定する文書(DoP)の宣言。
それらのコンテンツのいくつかは標準化されているが、DoPはレイアウト、言語、スキーマ、フォーマットが多岐にわたっており、自動キーバリューペア抽出(KVP)と質問応答(QA)の課題を提起している。
既存の静的またはLLMのみのIEパイプラインは、しばしば幻覚し、この構造的多様性に適応できない。
ドメイン固有でステートフルなエージェントシステムは、プランナー-エグゼクタ-レスポンダアーキテクチャを通じてこれらの課題に対処します。
このシステムはユーザの意図を推測し、文書のモダリティを検出し、ツールの誤用や実行ループを避けながら、堅牢でトレース可能な推論のために動的にツールをオーケストレーションする。
キュレートされたDoPデータセットの評価は、フォーマットと言語間の堅牢性の向上を示し、規制されたワークフローで構造化されたデータ抽出のためのスケーラブルなソリューションを提供する。
関連論文リスト
- From Chaos to Automation: Enabling the Use of Unstructured Data for Robotic Process Automation [0.6144680854063939]
Unstructured Document Retrieval SyStem (UNDRESS) は、ファジィ正規表現、自然言語処理のための技術、そしてRPAプラットフォームが非構造化文書から情報を効率的に取得できるようにするための大きな言語モデルを使用するシステムである。
その結果、UNDRESSが非構造化データに対するRPA能力の向上に有効であることを示し、この分野において大きな進歩をもたらした。
論文 参考訳(メタデータ) (2025-07-15T14:32:49Z) - eSapiens: A Real-World NLP Framework for Multimodal Document Understanding and Enterprise Knowledge Processing [6.450269621190948]
企業環境での質問応答システムeSapiensを紹介する。
eSapiensは、二重モジュールアーキテクチャを介して構造化データベースと非構造化コーパスをブリッジする。
我々は、RAGTruthベンチマークでeSapiensを評価し、完全性、幻覚、文脈利用といった重要な側面における性能を分析した。
論文 参考訳(メタデータ) (2025-06-20T06:07:20Z) - Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents [0.0]
本稿では,Large Language Model (LLM)エージェントと強化学習ドライバエージェントを利用して,一貫性のある自己改善抽出を自動化するエージェントAIシステムを提案する。
我々の研究は、モノリシックなLCMベースの抽出の限界を強調し、タスク固有のプロンプトを備えたモジュール化されたマルチエージェントフレームワークを導入しました。
この自己修正適応システムは、人間の介入なしに正確な情報抽出を自動化することを目的として、多様な文書、ファイル形式、レイアウト、LLMを処理する。
論文 参考訳(メタデータ) (2025-05-16T09:46:10Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - GENIE: Generative Note Information Extraction model for structuring EHR data [14.057531175321113]
生成ノート情報抽出システムGENIEを紹介する。
GENIEは1つのパスで全段落を処理し、エンティティ、アサーションステータス、ロケーション、修飾子、値、目的を高精度に抽出する。
堅牢なデータ準備パイプラインと微調整された小型LLMを使用して、GENIEは複数の情報抽出タスク間での競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T15:42:24Z) - Document Structure in Long Document Transformers [64.76981299465885]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。
文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。
長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか?
事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-01-31T08:28:06Z) - Validation of Rigorous Requirements Specifications and Document
Automation with the ITLingo RSL Language [0.0]
ITLingoイニシアチブは、技術的文書の厳密さと一貫性を高めるためにRSLという要求仕様言語を導入した。
本稿では、要求検証と文書自動化の分野における既存の研究・ツールについてレビューする。
我々は、カスタマイズされたチェックと、RSL自体で動的に定義された言語規則に基づいて、仕様の検証によりRSLを拡張することを提案する。
論文 参考訳(メタデータ) (2023-12-17T21:39:26Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Unified Structure Generation for Universal Information Extraction [58.89057387608414]
UIEは、異なるIEタスクを普遍的にモデル化し、ターゲット構造を適応的に生成し、異なる知識ソースから一般的なIE能力を協調的に学習することができる。
実験によると、UIEは4つのIEタスク、13のデータセット、およびすべての教師付き、低リソース、数ショット設定で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-03-23T08:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。