論文の概要: Keywords are not always the key: A metadata field analysis for natural language search on open data portals
- arxiv url: http://arxiv.org/abs/2509.14457v1
- Date: Wed, 17 Sep 2025 22:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.989101
- Title: Keywords are not always the key: A metadata field analysis for natural language search on open data portals
- Title(参考訳): キーワードは必ずしも鍵ではない:オープンデータポータル上の自然言語検索のためのメタデータフィールド解析
- Authors: Lisa-Yao Gan, Arunav Das, Johanna Walker, Elena Simperl,
- Abstract要約: 個別のメタデータフィールドが対話型データセット検索の成功にどのように影響するかを検討する。
メタデータフィールド「記述」の既存のコンテンツとLLM生成コンテンツを比較した。
この結果から,データセット記述がユーザの意図と整合する上で重要な役割を担っていることが示唆された。
- 参考スコア(独自算出の注目度): 3.974422712382188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open data portals are essential for providing public access to open datasets. However, their search interfaces typically rely on keyword-based mechanisms and a narrow set of metadata fields. This design makes it difficult for users to find datasets using natural language queries. The problem is worsened by metadata that is often incomplete or inconsistent, especially when users lack familiarity with domain-specific terminology. In this paper, we examine how individual metadata fields affect the success of conversational dataset retrieval and whether LLMs can help bridge the gap between natural queries and structured metadata. We conduct a controlled ablation study using simulated natural language queries over real-world datasets to evaluate retrieval performance under various metadata configurations. We also compare existing content of the metadata field 'description' with LLM-generated content, exploring how different prompting strategies influence quality and impact on search outcomes. Our findings suggest that dataset descriptions play a central role in aligning with user intent, and that LLM-generated descriptions can support effective retrieval. These results highlight both the limitations of current metadata practices and the potential of generative models to improve dataset discoverability in open data portals.
- Abstract(参考訳): オープンデータセットへのパブリックアクセスを提供するには、オープンデータポータルが不可欠だ。
しかし、それらの検索インターフェイスは一般的にキーワードベースのメカニズムとメタデータフィールドの狭いセットに依存している。
この設計により、自然言語クエリを使ってデータセットを見つけるのが難しくなる。
この問題は、特にユーザーがドメイン固有の用語に精通していない場合、しばしば不完全または一貫性のないメタデータによって悪化する。
本稿では,個々のメタデータフィールドが対話型データセット検索の成功にどう影響するか,LLMが自然言語と構造化メタデータのギャップを埋めるのに役立つかを検討する。
実世界のデータセット上での自然言語クエリをシミュレーションし,様々なメタデータ構成による検索性能の評価を行う。
また、メタデータフィールド「記述」の既存の内容とLCM生成コンテンツを比較し、異なるプロンプト戦略が品質や検索結果に与える影響について検討する。
以上の結果から,データセット記述がユーザ意図と整合する上で中心的な役割を果たし,LLM生成記述が効果的な検索を支援することが示唆された。
これらの結果は、現在のメタデータプラクティスの限界と、オープンデータポータルにおけるデータセット発見性を改善するための生成モデルの可能性の両方を強調している。
関連論文リスト
- Flexible metadata harvesting for ecology using large language models [3.4117490081172774]
大規模言語モデル(LLM)に基づくメタデータ抽出装置を開発した。
任意のデータセットのランディングページからメタデータを柔軟に抽出する。
既存のメタデータ標準を使用して、これらをユーザ定義の統一フォーマットに変換する。
論文 参考訳(メタデータ) (2025-08-21T10:10:29Z) - Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Harmonizing Metadata of Language Resources for Enhanced Querying and Accessibility [0.0]
本稿では,言語資源の多種多様なリポジトリ(LR)からのメタデータの調和について述べる。
我々の手法は,新たに開発されたポータルであるLinghubを通じて,テキストベースの検索,ファステッドブラウジング,高度なSPARQLクエリをサポートする。
この研究は、メタデータの調和を高めるために、重要なメタデータの問題とオープンな語彙と標準に固執することを提唱する。
論文 参考訳(メタデータ) (2025-01-09T22:48:43Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。
文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。