論文の概要: Schema Inference for Tabular Data Repositories Using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.04632v1
- Date: Thu, 04 Sep 2025 19:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.398356
- Title: Schema Inference for Tabular Data Repositories Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた語彙データリポジトリのスキーマ推論
- Authors: Zhenyu Wu, Jiaoyan Chen, Norman W. Paton,
- Abstract要約: 本稿では,カラムヘッダとセル値のみを用いて,データに対する簡潔な概念スキーマを推論するSI-LLMを提案する。
SI-LLMは有望なエンドツーエンドの結果を達成し、各ステップにおける最先端のメソッドよりも良いか同等の結果が得られる。
- 参考スコア(独自算出の注目度): 12.626848016550051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimally curated tabular data often contain representational inconsistencies across heterogeneous sources, and are accompanied by sparse metadata. Working with such data is intimidating. While prior work has advanced dataset discovery and exploration, schema inference remains difficult when metadata are limited. We present SI-LLM (Schema Inference using Large Language Models), which infers a concise conceptual schema for tabular data using only column headers and cell values. The inferred schema comprises hierarchical entity types, attributes, and inter-type relationships. In extensive evaluation on two datasets from web tables and open data, SI-LLM achieves promising end-to-end results, as well as better or comparable results to state-of-the-art methods at each step. All source code, full prompts, and datasets of SI-LLM are available at https://github.com/PierreWoL/SILLM.
- Abstract(参考訳): 最小にキュレートされた表データはしばしば異種ソース間の表現上の不整合を含み、スパースメタデータが伴う。
このようなデータを扱うのは危険です。
以前の作業では、データセットの発見と探索が進んだが、メタデータが限定されている場合、スキーマ推論は難しいままである。
本稿では、列ヘッダーとセル値のみを用いて、表データに対する簡潔な概念スキーマを推論するSI-LLM(Schema Inference using Large Language Models)を提案する。
推論スキーマは階層的なエンティティタイプ、属性、型間関係を含む。
Webテーブルとオープンデータからの2つのデータセットの広範な評価において、SI-LLMは有望なエンドツーエンドの結果を達成するとともに、各ステップにおける最先端メソッドと同等あるいは良質な結果を得る。
すべてのソースコード、完全なプロンプト、SI-LLMのデータセットはhttps://github.com/PierreWoL/SILLMで入手できる。
関連論文リスト
- MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - Taxonomy Inference for Tabular Data Using Large Language Models [31.121233193993906]
本稿では,表に対する分類的推論法として, (i) EmTT, (ii) GeTT, (ii) GPT-4 のようなデコーダ・アローン LLM を用いてテーブルエンティティの型と階層を生成する。
論文 参考訳(メタデータ) (2025-03-25T16:26:05Z) - GReaTER: Generate Realistic Tabular data after data Enhancement and Reduction [9.784347635082232]
本稿では,現実的なタブラリデータを生成するためのGReaTERを提案する。
GReaTERは、データセマンティックエンハンスメントシステムとクロステーブル接続方法を含む。
GReaTERはGReaTフレームワークより優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-03-19T04:16:05Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文 参考訳(メタデータ) (2024-03-03T17:14:40Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - TabEAno: Table to Knowledge Graph Entity Annotation [7.451544182579802]
本稿では,テーブル行を知識グラフエンティティに意味論的にアノテートするための新しいアプローチであるTabEAnoを提案する。
表の同じ行の2つの閉セル間の知識グラフに既存の論理的関係が存在するという仮定に基づいて、「2セル」のルックアップ戦略を導入する。
アプローチの単純さにもかかわらず、TabEAnoは2つの標準データセットにおけるアートアプローチの状態を上回ります。
論文 参考訳(メタデータ) (2020-10-05T07:39:02Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。