論文の概要: Executable Schema Contracts: From Automatic Ingestion to Multi-Source Retrieval
- arxiv url: http://arxiv.org/abs/2606.05415v1
- Date: Wed, 03 Jun 2026 20:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.391957
- Title: Executable Schema Contracts: From Automatic Ingestion to Multi-Source Retrieval
- Title(参考訳): Executable Schema Contracts: 自動取り込みからマルチソース検索へ
- Authors: Padmaja Jonnalagedda, Yuguang Yao, Xiang Gao, Hilaf Hasson, Kamalika Das,
- Abstract要約: 実世界のデータは、暗黙のセマンティクスを持つテーブル、ドキュメント、半構造化ファイルにまたがる。
生のマルチソースデータから実行可能なスキーマを自動的に検出するシステムを提案する。
- 参考スコア(独自算出の注目度): 19.3757623473603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world data spans tables, documents, and semi-structured files with implicit semantics. Querying this data requires integrating evidence across inconsistent schemas and formats, yet existing approaches either demand costly manual engineering or bypass structure entirely. We present a system that automatically discovers an executable schema from raw multi-source data and uses it as a shared contract for knowledge graph construction and query-time retrieval. A closed-world field catalog constrains LLM-based schema discovery to attested fields; deterministic structural analysis infers identity keys, foreign keys, and source hierarchy; and the resulting schema drives extraction, deduplication, and cross-source linking into a provenance-aware knowledge graph. At query time the schema -- optionally extended via a monotonic protocol -- conditions a multi-tool agent routing retrieval across structured lookup, graph traversal, and vector search, returning grounded answers with traceable citations. In controlled zero-shot comparisons using the same LLM, data, and evaluation harness, the system improves over retrieval-only and decomposition-based baselines across four QA benchmarks, with ablations showing that schema-conditioned routing, structural intelligence, and schema-guided construction each contribute to the gains.
- Abstract(参考訳): 実世界のデータは、暗黙のセマンティクスを持つテーブル、ドキュメント、半構造化ファイルにまたがる。
このデータをクエリするには、一貫性のないスキーマやフォーマットにエビデンスを統合する必要があります。
本稿では、生のマルチソースデータから実行可能なスキーマを自動的に検出し、知識グラフの構築とクエリ時間検索のための共有契約として利用するシステムを提案する。
クローズドワールドのフィールドカタログは、LLMベースのスキーマ発見を証明されたフィールドに制限し、決定論的構造解析はアイデンティティキー、外部キー、ソース階層を推論し、結果のスキーマは、抽出、復号化、およびソース間のリンクを証明された知識グラフに駆動する。
クエリ時に、スキーマ -- オプションでモノトニックプロトコル経由で拡張 -- は、構造化ルックアップ、グラフトラバーサル、ベクトル検索をルーティングするマルチツールエージェントを条件として、トレーサブルな引用でグラウンドド回答を返す。
同じLLM、データ、評価ハーネスを用いて、制御されたゼロショット比較において、システムは4つのQAベンチマークで検索専用および分解ベースラインよりも改善され、スキーマ条件付きルーティング、構造的インテリジェンス、スキーマ誘導構造がそれぞれ利得に寄与することを示す。
関連論文リスト
- AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis [11.689256498133446]
埋め込みから構造化アノテーションへ移行する新しい検索パラダイムであるAnnoRetrieveを提案する。
提案システムは,高コストなベクトル比較を,自動生成スキーマよりも軽量な構造化クエリに置き換える。
AnoRetrieveは、インテリジェントな構造化を通じて、コスト効率、正確、スケーラブルなドキュメント分析のための新しいパラダイムを確立している。
論文 参考訳(メタデータ) (2026-04-03T03:34:19Z) - A Reference Architecture for Agentic Hybrid Retrieval in Dataset Search [0.6299766708197881]
アドホックデータセット検索では、未特定の自然言語クエリとスパースで異質なメタデータレコードとをマッチングする必要がある。
本稿では,BM25語彙探索と密埋め込み検索を組み合わせたエージェントハイブリッド検索のための有界・監査可能な参照アーキテクチャを提案する。
ユーザ意図とプロバイダが承認したメタデータとの語彙ミスマッチを低減するために、オフラインメタデータ拡張ステップが導入される。
論文 参考訳(メタデータ) (2026-03-28T22:56:57Z) - DBAutoDoc: Automated Discovery and Documentation of Undocumented Database Schemas via Statistical Analysis and Iterative LLM Refinement [0.0]
膨大な数の重要なデータベースシステムには十分なドキュメントがない。
文書化されていないリレーショナルデータベーススキーマの発見とドキュメンテーションを自動化するDBAutoDocを提案する。
論文 参考訳(メタデータ) (2026-03-24T10:42:10Z) - Agentic DAG-Orchestrated Planner Framework for Multi-Modal, Multi-Hop Question Answering in Hybrid Data Lakes [5.276278723196607]
Agentic DAG-Orchestrated Transformer (A.DOT) Plannerはマルチモーダル・マルチホップ質問応答のためのフレームワークである。
A.DOTは、ユーザNLクエリを構造化および非構造化の両方にまたがる有向非巡回グラフ(DAG)実行計画にコンパイルする。
System Decomposes query into parallelizable sub-queries, includess schema-aware reasoning, and applied both structure and semantic validation。
論文 参考訳(メタデータ) (2026-03-15T05:34:16Z) - SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data [47.930782177987446]
不均一なコーパスに答える検索拡張された質問は、テキスト、テーブル、グラフノード間で接続されたエビデンスを必要とする。
標準レトリバーリーダーパイプラインは、独立にチャンクされたテキスト上の平坦な類似性検索を使用し、モダリティ間のマルチホップエビデンスチェーンを欠いている。
SAGE(Structure Aware Graph Expansion)フレームワークを提案する。これは、パーセンタイルベースのプルーニングとメタデータ駆動の類似性を利用して、チャンクレベルのグラフをオフラインで構築する。
暗黙的クロスモーダルコーパスと明示的スキーマグラフのエージェント検索であるSPARK(Structure Aware Planning Agent for Retrieval over Knowledge Graphs)のハイブリッド高密度スパース検索を用いて初期検索をインスタンス化する。
論文 参考訳(メタデータ) (2026-02-18T23:57:19Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文 参考訳(メタデータ) (2024-03-03T17:14:40Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。