Fugu-MT 論文翻訳(概要): Leveraging Schema Labels to Enhance Dataset Search

論文の概要: Leveraging Schema Labels to Enhance Dataset Search

arxiv url: http://arxiv.org/abs/2001.10112v1
Date: Mon, 27 Jan 2020 22:41:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 07:49:34.605233
Title: Leveraging Schema Labels to Enhance Dataset Search
Title（参考訳）: データセット検索にスキーマラベルを活用する
Authors: Zhiyu Chen, Haiyan Jia, Jeff Heflin, Brian D. Davison
Abstract要約: 本稿では,データセットテーブルの内容に基づいて可能なスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。生成したスキーマラベルを混合ランキングモデルに組み込み、クエリとデータセットメタデータの関連性を検討する。実験により,本手法はデータセット検索タスクの精度とNDCGスコアを効果的に向上できることが示された。
参考スコア（独自算出の注目度）: 20.63182827636973
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A search engine's ability to retrieve desirable datasets is important for data sharing and reuse. Existing dataset search engines typically rely on matching queries to dataset descriptions. However, a user may not have enough prior knowledge to write a query using terms that match with description text.We propose a novel schema label generation model which generates possible schema labels based on dataset table content. We incorporate the generated schema labels into a mixed ranking model which not only considers the relevance between the query and dataset metadata but also the similarity between the query and generated schema labels. To evaluate our method on real-world datasets, we create a new benchmark specifically for the dataset retrieval task. Experiments show that our approach can effectively improve the precision and NDCG scores of the dataset retrieval task compared with baseline methods. We also test on a collection of Wikipedia tables to show that the features generated from schema labels can improve the unsupervised and supervised web table retrieval task as well.
Abstract（参考訳）: 望ましいデータセットを検索する検索エンジンの能力は、データの共有と再利用に重要である。既存のデータセット検索エンジンは通常、データセット記述にマッチするクエリに依存する。しかし、ユーザーは記述テキストと一致する用語を用いてクエリを書くのに十分な事前知識を持っておらず、データセットテーブルの内容に基づいてスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。生成したスキーマラベルを、クエリとデータセットメタデータの関連性だけでなく、クエリと生成したスキーマラベルの類似性も考慮した混合ランキングモデルに組み込む。本手法を実世界のデータセット上で評価するために,データセット検索タスク専用のベンチマークを作成した。実験により,本手法はベースライン法と比較して,データセット検索タスクの精度とndcgスコアを効果的に改善できることを示した。また、ウィキペディアテーブルの集合を用いて、スキーマラベルから生成された特徴が、教師なしおよび教師なしのWebテーブル検索タスクも改善可能であることを示す。

関連論文リスト

Schema Inference for Tabular Data Repositories Using Large Language Models [12.626848016550051]
本稿では,カラムヘッダとセル値のみを用いて,データに対する簡潔な概念スキーマを推論するSI-LLMを提案する。 SI-LLMは有望なエンドツーエンドの結果を達成し、各ステップにおける最先端のメソッドよりも良いか同等の結果が得られる。
論文参考訳（メタデータ） (2025-09-04T19:50:16Z)
Doc2Chart: Intent-Driven Zero-Shot Chart Generation from Documents [7.616682226138909]
文書から意図に基づくチャート生成の課題を紹介する。ゴールは、意図に忠実なチャートを生成し、ゼロショット設定でドキュメントに基盤を置くことです。本稿では,チャートの構造化テキスト表現を用いた属性に基づくメトリクスを提案する。
論文参考訳（メタデータ） (2025-07-20T04:34:59Z)
UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文参考訳（メタデータ） (2025-05-23T17:28:43Z)
TARGET: Benchmarking Table Retrieval for Generative Tasks [7.379012456053551]
TARGETは、GEnerative TasksのTAble Retrievalを評価するためのベンチマークである。我々は、異なる検索者の検索性能と、下流タスクへの影響を分離して分析する。密着型埋込型検索器はBM25ベースラインよりもはるかに優れており,非構造化テキストの検索よりも効率が低い。
論文参考訳（メタデータ） (2025-05-14T19:39:46Z)
Schema Matching with Large Language Models: an Experimental Study [0.580553237364985]
本稿では,市販のLarge Language Models (LLM) を用いてスキーママッチングを行う。本研究の目的は,2つの関係スキーマの要素間の意味的対応を名前と記述のみを用いて識別することである。
論文参考訳（メタデータ） (2024-07-16T15:33:00Z)
Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。 DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文参考訳（メタデータ） (2024-06-23T05:02:21Z)
Standardness Fogs Meaning: A Position Regarding the Informed Usage of Standard Datasets [0.5497663232622965]
我々は、標準データセットのユースケース、派生カテゴリ、ラベルの一致を評価した。 20のNewsgroupsデータセットに対して、ラベルが不正確であることを実証する。データセットの標準化の概念は、ユースケース、派生カテゴリ、クラスラベルに一致していることを意味すると結論付けている。
論文参考訳（メタデータ） (2024-06-19T13:39:05Z)
QueryNER: Segmentation of E-commerce Queries [12.563241705572409]
電子商取引クエリセグメンテーションのための手動注釈付きデータセットと付随モデルを提案する。私たちの研究は、クエリを広く適用可能な型を持った意味のあるチャンクに分割するという目標に焦点を当てています。
論文参考訳（メタデータ） (2024-05-15T16:58:35Z)
Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables [18.330753799139845]
新しいデータセットであるWiki-TabNERは、既存のベンチマークデータセットを強化するために提案されている。本稿では,Wiki-TabNERデータセットとラベリングプロセスの特徴について述べる。さらに,内部テーブルNERタスク上での新しい大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T15:22:07Z)
ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文参考訳（メタデータ） (2024-03-03T17:14:40Z)
Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文参考訳（メタデータ） (2023-03-07T15:07:57Z)
Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文参考訳（メタデータ） (2022-11-13T17:57:07Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
Semantic Labeling Using a Deep Contextualized Language Model [9.719972529205101]
本研究では,コラム値と文脈の両方を用いた文脈認識型セマンティックラベリング手法を提案する。我々の新しい手法はセマンティックラベリングの新しい設定に基づいており、ヘッダーを欠いた入力テーブルのラベルを逐次予測する。我々の知る限りでは、BERTをセマンティックラベリングタスクの解決に成功させたのは、私たちが初めてです。
論文参考訳（メタデータ） (2020-10-30T03:04:22Z)
Object Detection with a Unified Label Space from Multiple Datasets [94.33205773893151]
異なるラベル空間を持つ複数のデータセットが与えられた場合、この研究の目標は、すべてのラベル空間の結合について予測する単一のオブジェクト検出器をトレーニングすることである。あるデータセットにアノテートされているが、別のデータセットにアノテートされていない顔のようなオブジェクトカテゴリを考えてみましょう。顔のようないくつかのカテゴリは、あるデータセットでは前景と見なされるが、別のデータセットでは背景と見なされる。本稿では,部分的だが正しいアノテーションを補完的だがノイズの多い擬似ラベルと注意深く統合する損失関数を提案する。
論文参考訳（メタデータ） (2020-08-15T00:51:27Z)
ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文参考訳（メタデータ） (2020-04-29T17:53:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。