論文の概要: Leveraging Schema Labels to Enhance Dataset Search
- arxiv url: http://arxiv.org/abs/2001.10112v1
- Date: Mon, 27 Jan 2020 22:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:49:34.605233
- Title: Leveraging Schema Labels to Enhance Dataset Search
- Title(参考訳): データセット検索にスキーマラベルを活用する
- Authors: Zhiyu Chen, Haiyan Jia, Jeff Heflin, Brian D. Davison
- Abstract要約: 本稿では,データセットテーブルの内容に基づいて可能なスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。
生成したスキーマラベルを混合ランキングモデルに組み込み、クエリとデータセットメタデータの関連性を検討する。
実験により,本手法はデータセット検索タスクの精度とNDCGスコアを効果的に向上できることが示された。
- 参考スコア(独自算出の注目度): 20.63182827636973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A search engine's ability to retrieve desirable datasets is important for
data sharing and reuse. Existing dataset search engines typically rely on
matching queries to dataset descriptions. However, a user may not have enough
prior knowledge to write a query using terms that match with description
text.We propose a novel schema label generation model which generates possible
schema labels based on dataset table content. We incorporate the generated
schema labels into a mixed ranking model which not only considers the relevance
between the query and dataset metadata but also the similarity between the
query and generated schema labels. To evaluate our method on real-world
datasets, we create a new benchmark specifically for the dataset retrieval
task. Experiments show that our approach can effectively improve the precision
and NDCG scores of the dataset retrieval task compared with baseline methods.
We also test on a collection of Wikipedia tables to show that the features
generated from schema labels can improve the unsupervised and supervised web
table retrieval task as well.
- Abstract(参考訳): 望ましいデータセットを検索する検索エンジンの能力は、データの共有と再利用に重要である。
既存のデータセット検索エンジンは通常、データセット記述にマッチするクエリに依存する。
しかし、ユーザーは記述テキストと一致する用語を用いてクエリを書くのに十分な事前知識を持っておらず、データセットテーブルの内容に基づいてスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。
生成したスキーマラベルを、クエリとデータセットメタデータの関連性だけでなく、クエリと生成したスキーマラベルの類似性も考慮した混合ランキングモデルに組み込む。
本手法を実世界のデータセット上で評価するために,データセット検索タスク専用のベンチマークを作成した。
実験により,本手法はベースライン法と比較して,データセット検索タスクの精度とndcgスコアを効果的に改善できることを示した。
また、ウィキペディアテーブルの集合を用いて、スキーマラベルから生成された特徴が、教師なしおよび教師なしのWebテーブル検索タスクも改善可能であることを示す。
関連論文リスト
- ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.9558392439655012]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
提案手法では,事前定義されたマッピングやモデルトレーニング,あるいはソースデータベースのデータへのアクセスが不要になる。
大規模な実世界のスキーマに関する実験結果から、ReMatchはマッチング機能を大幅に改善し、他の機械学習アプローチよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T17:14:40Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Type-supervised sequence labeling based on the heterogeneous star graph
for named entity recognition [6.25916397918329]
本稿では,テキストノードとタイプノードを含む異種星グラフの表現学習について述べる。
モデルは、グラフ内のノードを更新した後、タイプ管理シーケンスラベリングを実行する。
NERデータセットの公開実験により、フラットなエンティティとネストされたエンティティの両方を抽出する際のモデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2022-10-19T01:40:06Z) - Ranking Models in Unlabeled New Environments [74.33770013525647]
ラベルのない新しい環境におけるランキングモデルの問題を紹介する。
1)完全にラベル付けされたプロキシデータセットを使用し、2)所定のターゲット環境での真のモデルランキングをよく反映します。
具体的には、ラベル付けされていないターゲットドメインに近いデータセットは、相対的なパフォーマンスランキングをよりよく保存する。
論文 参考訳(メタデータ) (2021-08-23T17:57:15Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Semantic Labeling Using a Deep Contextualized Language Model [9.719972529205101]
本研究では,コラム値と文脈の両方を用いた文脈認識型セマンティックラベリング手法を提案する。
我々の新しい手法はセマンティックラベリングの新しい設定に基づいており、ヘッダーを欠いた入力テーブルのラベルを逐次予測する。
我々の知る限りでは、BERTをセマンティックラベリングタスクの解決に成功させたのは、私たちが初めてです。
論文 参考訳(メタデータ) (2020-10-30T03:04:22Z) - Object Detection with a Unified Label Space from Multiple Datasets [94.33205773893151]
異なるラベル空間を持つ複数のデータセットが与えられた場合、この研究の目標は、すべてのラベル空間の結合について予測する単一のオブジェクト検出器をトレーニングすることである。
あるデータセットにアノテートされているが、別のデータセットにアノテートされていない顔のようなオブジェクトカテゴリを考えてみましょう。
顔のようないくつかのカテゴリは、あるデータセットでは前景と見なされるが、別のデータセットでは背景と見なされる。
本稿では,部分的だが正しいアノテーションを補完的だがノイズの多い擬似ラベルと注意深く統合する損失関数を提案する。
論文 参考訳(メタデータ) (2020-08-15T00:51:27Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。