論文の概要: Neurosymbolic Information Extraction from Transactional Documents
- arxiv url: http://arxiv.org/abs/2512.09666v1
- Date: Wed, 10 Dec 2025 14:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.546847
- Title: Neurosymbolic Information Extraction from Transactional Documents
- Title(参考訳): トランザクショナルドキュメントからのニューロシンボリック情報抽出
- Authors: Arthur Hemmer, Mickaël Coustaty, Nicola Bartolo, Jean-Marc Ogier,
- Abstract要約: 本稿では,トランザクショナル文書で評価された文書からの情報抽出のためのニューロシンボリック・フレームワークを提案する。
我々は、より効果的なゼロショット出力と知識蒸留を可能にするために、シンボリック検証手法を統合するスキーマベースのアプローチを導入する。
- 参考スコア(独自算出の注目度): 1.9730935994273737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a neurosymbolic framework for information extraction from documents, evaluated on transactional documents. We introduce a schema-based approach that integrates symbolic validation methods to enable more effective zero-shot output and knowledge distillation. The methodology uses language models to generate candidate extractions, which are then filtered through syntactic-, task-, and domain-level validation to ensure adherence to domain-specific arithmetic constraints. Our contributions include a comprehensive schema for transactional documents, relabeled datasets, and an approach for generating high-quality labels for knowledge distillation. Experimental results demonstrate significant improvements in $F_1$-scores and accuracy, highlighting the effectiveness of neurosymbolic validation in transactional document processing.
- Abstract(参考訳): 本稿では,トランザクショナル文書で評価された文書からの情報抽出のためのニューロシンボリック・フレームワークを提案する。
我々は、より効果的なゼロショット出力と知識蒸留を可能にするために、シンボリック検証手法を統合するスキーマベースのアプローチを導入する。
この手法は言語モデルを用いて候補抽出を生成し、構文、タスク、ドメインレベルの検証を通じてフィルタリングすることで、ドメイン固有の算術的制約の遵守を保証する。
コントリビューションには、トランザクションドキュメントの包括的なスキーマ、拡張データセット、知識蒸留のための高品質なラベルを生成するアプローチなどが含まれています。
F_1$スコアと精度が大幅に向上し,トランザクショナル文書処理におけるニューロシンボリック検証の有効性が示された。
関連論文リスト
- Label-Efficient Skeleton-based Recognition with Stable-Invertible Graph Convolutional Networks [14.061680807550722]
本稿では, グラフ畳み込みネットワーク(GCN)を用いた骨格に基づく行動認識のための, ラベル効率の高い新しい手法を提案する。
提案手法の貢献は,新たな獲得関数の学習に有効であり,ラベル付けにおいて最も有意義な部分集合を評価できる。
また、周辺空間から潜伏空間へのデータマッピングを可能にする可逆GCNを用いて、最も情報性の高い部分集合を学習することで、このアプローチを拡張した。
論文 参考訳(メタデータ) (2025-11-21T16:06:53Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Information Extraction from Heterogeneous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation [0.2302001830524133]
ラベルなしVRDコーパスにおける合成ラベル生成手法であるタスク認識命令に基づくラベリング(TAIL)を提案する。
応答型知識蒸留を用いた多モード視覚リッチ文書理解モデル(VRDU)をTAILラベル上で微調整する。
得られたモデルが、最先端のLMMよりも大規模な多国籍組織の内部費用文書に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-22T14:16:09Z) - Integrating Large Language Models and Knowledge Graphs for Extraction and Validation of Textual Test Data [3.114910206366326]
タレス・アレニア・スペース (Thales Alenia Space) のような航空宇宙製造会社は、製品の設計、開発、統合、検証、検証を行っている。
本稿では,Large Language Models (LLMs) と協調して知識グラフ(KGs)を活用してデータの抽出と検証を行うハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-08-03T07:42:53Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Reading Order Matters: Information Extraction from Visually-rich
Documents by Token Path Prediction [30.827288164068992]
トークンパス予測(TPP)は、ドキュメント内のトークンシーケンスとしてエンティティの参照を予測する単純な予測ヘッドである。
TPPは、ドキュメントレイアウトをトークンの完全な有向グラフとしてモデル化し、グラフ内のトークンパスをエンティティとして予測する。
また, VrD-NERシステムの性能評価のために, スキャンした文書に対して, NERのベンチマークデータセットを2つ改訂した。
論文 参考訳(メタデータ) (2023-10-17T06:08:55Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。