論文の概要: Relational Deep Dive: Error-Aware Queries Over Unstructured Data
- arxiv url: http://arxiv.org/abs/2511.02711v1
- Date: Tue, 04 Nov 2025 16:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.10749
- Title: Relational Deep Dive: Error-Aware Queries Over Unstructured Data
- Title(参考訳): リレーショナルディープディーブ:非構造化データに対するエラー対応クエリ
- Authors: Daren Chao, Kaiwen Chen, Naiqing Guan, Nick Koudas,
- Abstract要約: ReDD(Relational Deep Dive)は、クエリ固有のスキーマを動的に発見し、リレーショナルテーブルをポップアップさせ、証明可能な保証でエラー認識抽出を保証するフレームワークである。
主な貢献は、カバレッジ保証付きエラー検出の統計的校正手法であるSCAPEと、精度と人的補正コストのトレードオフを最適化するハイブリッドアプローチであるSCAPE-HYBである。
- 参考スコア(独自算出の注目度): 9.0236658372663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured data is pervasive, but analytical queries demand structured representations, creating a significant extraction challenge. Existing methods like RAG lack schema awareness and struggle with cross-document alignment, leading to high error rates. We propose ReDD (Relational Deep Dive), a framework that dynamically discovers query-specific schemas, populates relational tables, and ensures error-aware extraction with provable guarantees. ReDD features a two-stage pipeline: (1) Iterative Schema Discovery (ISD) identifies minimal, joinable schemas tailored to each query, and (2) Tabular Data Population (TDP) extracts and corrects data using lightweight classifiers trained on LLM hidden states. A main contribution of ReDD is SCAPE, a statistically calibrated method for error detection with coverage guarantees, and SCAPE-HYB, a hybrid approach that optimizes the trade-off between accuracy and human correction costs. Experiments across diverse datasets demonstrate ReDD's effectiveness, reducing data extraction errors from up to 30% to below 1% while maintaining high schema completeness (100% recall) and precision. ReDD's modular design enables fine-grained control over accuracy-cost trade-offs, making it a robust solution for high-stakes analytical queries over unstructured corpora.
- Abstract(参考訳): 構造化されていないデータは広く普及しているが、解析的なクエリは構造化表現を必要としており、重要な抽出課題を生み出している。
RAGのような既存の手法ではスキーマの認識が欠如し、ドキュメント間のアライメントに苦慮しているため、エラー率が高い。
ReDD(Relational Deep Dive)は,クエリ固有のスキーマを動的に検出し,リレーショナルテーブルをポピュレートし,証明可能な保証付きエラー認識抽出を保証するフレームワークである。
ReDDには2段階のパイプラインがある: 1) 反復スキーマディスカバリ(ISD)はクエリごとに調整された最小限の結合可能なスキーマを識別し、(2) タブラルデータポピュレーション(TDP)はLLM隠蔽状態に基づいて訓練された軽量分類器を使用してデータを抽出し、修正する。
ReDDの主な貢献は、カバレッジ保証付きエラー検出の統計的校正手法であるSCAPEと、精度と人的補正コストのトレードオフを最適化するハイブリッドアプローチであるSCAPE-HYBである。
さまざまなデータセットにわたる実験は、ReDDの有効性を示し、データの抽出エラーを最大30%から1%以下に削減し、高いスキーマ完全性(100%リコール)と精度を維持している。
ReDDのモジュール設計により、精度とコストのトレードオフをきめ細かな制御が可能となり、非構造化コーパス上での高速解析クエリの堅牢なソリューションとなる。
関連論文リスト
- Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - Limited Reference, Reliable Generation: A Two-Component Framework for Tabular Data Generation in Low-Data Regimes [7.036974567001374]
ReFineは、ドメイン固有の機能の配布に向けて生成をガイドするフレームワークである。
様々な回帰と分類のベンチマークの実験では、ReFineは最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-12T04:34:46Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Stress-Testing ML Pipelines with Adversarial Data Corruption [11.91482648083998]
規制当局は現在、ハイテイクシステムは現実的で相互依存的なエラーに耐えられるという証拠を要求している。
SAVAGEは依存性グラフとフレキシブルな汚いテンプレートを通じて、データ品質の問題を正式にモデル化するフレームワークです。
Savanageは、脆弱性のあるデータサブポピュレーションと微調整による汚職の深刻度を効率的に識別するために、双方向の最適化アプローチを採用している。
論文 参考訳(メタデータ) (2025-06-02T00:41:24Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。