論文の概要: DSEBench: A Test Collection for Explainable Dataset Search with Examples
- arxiv url: http://arxiv.org/abs/2510.17228v1
- Date: Mon, 20 Oct 2025 07:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.345826
- Title: DSEBench: A Test Collection for Explainable Dataset Search with Examples
- Title(参考訳): DSEBench: 例による説明可能なデータセット検索のためのテストコレクション
- Authors: Qing Shi, Jing He, Qiaosheng Chen, Gong Cheng,
- Abstract要約: 説明可能なDSEの評価を可能にするため,高品質なデータセットとフィールドレベルのアノテーションを提供するテストコレクションを開発した。
我々は,多種多様なスパース,密度,LLMに基づく検索,再ランク付け,説明手法を適応し,評価することにより,DSEBenchの広範なベースラインを確立する。
- 参考スコア(独自算出の注目度): 14.572501479346442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset search has been an established information retrieval task. Current paradigms either retrieve datasets that are relevant to a keyword query or find datasets that are similar to an input target dataset. To allow for their combined specification of information needs, in this article, we investigate the more generalized task of Dataset Search with Examples (DSE) and further extend it to Explainable DSE that requires identifying the metadata and content fields of a dataset that indicate its relevance to the query and similarity to the target datasets. To facilitate this research, we construct DSEBench, a test collection that provides high-quality dataset- and field-level annotations to enable the evaluation of explainable DSE. We also employ a large language model to generate numerous annotations to be used for training. We establish extensive baselines on DSEBench by adapting and evaluating a variety of sparse, dense, and LLM-based retrieval, reranking, and explanation methods.
- Abstract(参考訳): データセット検索は、確立された情報検索タスクである。
現在のパラダイムでは、キーワードクエリに関連するデータセットを検索するか、入力ターゲットデータセットに似たデータセットを見つける。
本稿では,データ集合探索と例(Dataset Search with Examples, DSE)のより一般化されたタスクについて検討し,その関連性を示すデータセットのメタデータとコンテンツフィールドの識別を必要とする説明可能なDSEに拡張する。
そこで本研究では,高品質なデータセットおよびフィールドレベルのアノテーションを提供するテストコレクションであるDSEBenchを構築し,説明可能なDSEの評価を可能にする。
また、トレーニングに使用する多数のアノテーションを生成するために、大規模な言語モデルも使用しています。
我々は,多種多様なスパース,密度,LLMに基づく検索,再ランク付け,説明手法を適応し,評価することにより,DSEBenchの広範なベースラインを確立する。
関連論文リスト
- Keywords are not always the key: A metadata field analysis for natural language search on open data portals [3.974422712382188]
個別のメタデータフィールドが対話型データセット検索の成功にどのように影響するかを検討する。
メタデータフィールド「記述」の既存のコンテンツとLLM生成コンテンツを比較した。
この結果から,データセット記述がユーザの意図と整合する上で重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-17T22:14:27Z) - TARGET: Benchmarking Table Retrieval for Generative Tasks [7.379012456053551]
TARGETは、GEnerative TasksのTAble Retrievalを評価するためのベンチマークである。
我々は、異なる検索者の検索性能と、下流タスクへの影響を分離して分析する。
密着型埋込型検索器はBM25ベースラインよりもはるかに優れており,非構造化テキストの検索よりも効率が低い。
論文 参考訳(メタデータ) (2025-05-14T19:39:46Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。