論文の概要: Document-Level Tabular Numerical Cross-Checking: A Coarse-to-Fine Approach
- arxiv url: http://arxiv.org/abs/2506.13328v1
- Date: Mon, 16 Jun 2025 10:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.101895
- Title: Document-Level Tabular Numerical Cross-Checking: A Coarse-to-Fine Approach
- Title(参考訳): 文書レベルタブラル数値クロスチェッキン:粗大から粗大へのアプローチ
- Authors: Chaoxu Pang, Yixuan Cao, Ganbin Zhou, Hongwei Li, Ping Luo,
- Abstract要約: 情報開示文書の表間の数値的な一貫性は 正確性を確保し 信頼性を維持し 評判と経済のリスクを維持するために 不可欠です
本稿では,これら課題に対処する新しいフレームワークであるCoFiTCheckを紹介する。
CoFiTCheckは、実用効率を維持しながら、従来の方法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 27.581678327762003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerical consistency across tables in disclosure documents is critical for ensuring accuracy, maintaining credibility, and avoiding reputational and economic risks. Automated tabular numerical cross-checking presents two significant challenges: (C1) managing the combinatorial explosion of candidate instances at the document level and (C2) comprehending multi-faceted numerical semantics. Previous research typically depends on heuristic-based filtering or simplified context extraction, often struggling to balance performance and efficiency. Recently, large language models (LLMs) have demonstrated remarkable contextual understanding capabilities that helps address C2 at the instance level, yet they remain hampered by computational inefficiency (C1) and limited domain expertise. This paper introduces CoFiTCheck, a novel LLM-based coarse-to-fine framework that addresses these challenges through two sequential stages: embedding-based filtering and discriminative classification. The embedding-based filtering stage introduces an instructional parallel encoding method to efficiently represent all numerical mentions in a table with LLMs, as well as a decoupled InfoNCE objective to mitigate the isolated mention problem. The discriminative classification stage employs a specialized LLM for fine-grained analysis of the remaining candidate pairs. This stage is further enhanced by our crosstable numerical alignment pretraining paradigm, which leverages weak supervision from cross-table numerical equality relationships to enrich task-specific priors without requiring manual annotation. Comprehensive evaluation across three types of real-world disclosure documents demonstrates that CoFiTCheck significantly outperforms previous methods while maintaining practical efficiency.
- Abstract(参考訳): 開示文書の表間の数値的一貫性は、正確性を確保し、信頼性を維持し、評判や経済的なリスクを避けるために重要である。
C1)文書レベルでの候補インスタンスの組合せ爆発を管理すること、(C2)多面的数値意味論を解釈することである。
従来の研究はヒューリスティックに基づくフィルタリングや単純化された文脈抽出に依存しており、しばしば性能と効率のバランスをとるのに苦労している。
近年,大規模言語モデル (LLM) では,C2 のインスタンスレベルでの処理に有効なコンテキスト理解能力が実証されている。
本稿では,新しいLLMベースの粗粒度フレームワークであるCoFiTCheckを紹介する。
埋め込みベースのフィルタリング段階では、LLMを持つテーブル内のすべての数値参照を効率的に表現する命令並列符号化手法と、分離された参照問題を緩和するための分離されたInfoNCE目的を導入する。
識別的分類段階は、残りの候補対のきめ細かい分析に特殊なLSMを用いる。
この段階は、クロステーブルな数値等式関係から弱い監督を生かし、手動のアノテーションを必要とせずにタスク固有の事前を充実させる、クロステーブルな数値アライメント事前訓練パラダイムによってさらに強化される。
実世界の3種類の開示文書の総合的な評価は、CoFiTCheckが実用効率を維持しつつ、従来の方法よりも大幅に優れていたことを示している。
関連論文リスト
- Label-shift robust federated feature screening for high-dimensional classification [14.252760098879186]
本稿では,既存のスクリーニング手法を統一する汎用フレームワークを提案し,ラベルシフト型ロバストな機能スクリーニング(LR-FFS)を提案する。
この枠組みに基づいて、LR-FFSは条件分布関数と期待値を活用し、計算負荷を加えることなくラベルシフトに対処する。
LR-FFSの各種クライアント環境における優れた性能を示す実験結果と理論的解析を行った。
論文 参考訳(メタデータ) (2025-05-31T04:14:49Z) - GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience Prediction [12.172254885579706]
格付けされたエンティティサリエンス(英語版)は、テキストにおける相対的な重要性を反映したエンティティスコアを割り当てる。
両アプローチの強みを組み合わせた,格付けされたエンティティ・サリエンスのための新しいアプローチを提案する。
提案手法は,人間の要約やアライメントに基づくスコアとの相関が強く,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-15T01:26:14Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery [6.037276428689637]
文書のランク付けと分類を強化するために知識グラフを統合する新システムであるDISCOGを導入する。
DISCOGは、F1スコア、精度、リコールにおいて、バランスの取れたデータセットと不均衡なデータセットの両方において、強力なベースラインを上回っている。
現実世界のデプロイメントでは、訴訟関連のドキュメントレビューコストを約98%削減し、ビジネス上の大きな影響を示している。
論文 参考訳(メタデータ) (2024-05-29T15:08:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。