論文の概要: Leveraging Schema Labels to Enhance Dataset Search
- arxiv url: http://arxiv.org/abs/2001.10112v1
- Date: Mon, 27 Jan 2020 22:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:49:34.605233
- Title: Leveraging Schema Labels to Enhance Dataset Search
- Title(参考訳): データセット検索にスキーマラベルを活用する
- Authors: Zhiyu Chen, Haiyan Jia, Jeff Heflin, Brian D. Davison
- Abstract要約: 本稿では,データセットテーブルの内容に基づいて可能なスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。
生成したスキーマラベルを混合ランキングモデルに組み込み、クエリとデータセットメタデータの関連性を検討する。
実験により,本手法はデータセット検索タスクの精度とNDCGスコアを効果的に向上できることが示された。
- 参考スコア(独自算出の注目度): 20.63182827636973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A search engine's ability to retrieve desirable datasets is important for
data sharing and reuse. Existing dataset search engines typically rely on
matching queries to dataset descriptions. However, a user may not have enough
prior knowledge to write a query using terms that match with description
text.We propose a novel schema label generation model which generates possible
schema labels based on dataset table content. We incorporate the generated
schema labels into a mixed ranking model which not only considers the relevance
between the query and dataset metadata but also the similarity between the
query and generated schema labels. To evaluate our method on real-world
datasets, we create a new benchmark specifically for the dataset retrieval
task. Experiments show that our approach can effectively improve the precision
and NDCG scores of the dataset retrieval task compared with baseline methods.
We also test on a collection of Wikipedia tables to show that the features
generated from schema labels can improve the unsupervised and supervised web
table retrieval task as well.
- Abstract(参考訳): 望ましいデータセットを検索する検索エンジンの能力は、データの共有と再利用に重要である。
既存のデータセット検索エンジンは通常、データセット記述にマッチするクエリに依存する。
しかし、ユーザーは記述テキストと一致する用語を用いてクエリを書くのに十分な事前知識を持っておらず、データセットテーブルの内容に基づいてスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。
生成したスキーマラベルを、クエリとデータセットメタデータの関連性だけでなく、クエリと生成したスキーマラベルの類似性も考慮した混合ランキングモデルに組み込む。
本手法を実世界のデータセット上で評価するために,データセット検索タスク専用のベンチマークを作成した。
実験により,本手法はベースライン法と比較して,データセット検索タスクの精度とndcgスコアを効果的に改善できることを示した。
また、ウィキペディアテーブルの集合を用いて、スキーマラベルから生成された特徴が、教師なしおよび教師なしのWebテーブル検索タスクも改善可能であることを示す。
関連論文リスト
- Schema Matching with Large Language Models: an Experimental Study [0.580553237364985]
本稿では,市販のLarge Language Models (LLM) を用いてスキーママッチングを行う。
本研究の目的は,2つの関係スキーマの要素間の意味的対応を名前と記述のみを用いて識別することである。
論文 参考訳(メタデータ) (2024-07-16T15:33:00Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Standardness Fogs Meaning: A Position Regarding the Informed Usage of Standard Datasets [0.5497663232622965]
我々は、標準データセットのユースケース、派生カテゴリ、ラベルの一致を評価した。
20のNewsgroupsデータセットに対して、ラベルが不正確であることを実証する。
データセットの標準化の概念は、ユースケース、派生カテゴリ、クラスラベルに一致していることを意味すると結論付けている。
論文 参考訳(メタデータ) (2024-06-19T13:39:05Z) - QueryNER: Segmentation of E-commerce Queries [12.563241705572409]
電子商取引クエリセグメンテーションのための手動注釈付きデータセットと付随モデルを提案する。
私たちの研究は、クエリを広く適用可能な型を持った意味のあるチャンクに分割するという目標に焦点を当てています。
論文 参考訳(メタデータ) (2024-05-15T16:58:35Z) - ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文 参考訳(メタデータ) (2024-03-03T17:14:40Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Semantic Labeling Using a Deep Contextualized Language Model [9.719972529205101]
本研究では,コラム値と文脈の両方を用いた文脈認識型セマンティックラベリング手法を提案する。
我々の新しい手法はセマンティックラベリングの新しい設定に基づいており、ヘッダーを欠いた入力テーブルのラベルを逐次予測する。
我々の知る限りでは、BERTをセマンティックラベリングタスクの解決に成功させたのは、私たちが初めてです。
論文 参考訳(メタデータ) (2020-10-30T03:04:22Z) - Object Detection with a Unified Label Space from Multiple Datasets [94.33205773893151]
異なるラベル空間を持つ複数のデータセットが与えられた場合、この研究の目標は、すべてのラベル空間の結合について予測する単一のオブジェクト検出器をトレーニングすることである。
あるデータセットにアノテートされているが、別のデータセットにアノテートされていない顔のようなオブジェクトカテゴリを考えてみましょう。
顔のようないくつかのカテゴリは、あるデータセットでは前景と見なされるが、別のデータセットでは背景と見なされる。
本稿では,部分的だが正しいアノテーションを補完的だがノイズの多い擬似ラベルと注意深く統合する損失関数を提案する。
論文 参考訳(メタデータ) (2020-08-15T00:51:27Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。