論文の概要: Keywords are not always the key: A metadata field analysis for natural language search on open data portals
- arxiv url: http://arxiv.org/abs/2509.14457v1
- Date: Wed, 17 Sep 2025 22:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.989101
- Title: Keywords are not always the key: A metadata field analysis for natural language search on open data portals
- Title(参考訳): キーワードは必ずしも鍵ではない:オープンデータポータル上の自然言語検索のためのメタデータフィールド解析
- Authors: Lisa-Yao Gan, Arunav Das, Johanna Walker, Elena Simperl,
- Abstract要約: 個別のメタデータフィールドが対話型データセット検索の成功にどのように影響するかを検討する。
メタデータフィールド「記述」の既存のコンテンツとLLM生成コンテンツを比較した。
この結果から,データセット記述がユーザの意図と整合する上で重要な役割を担っていることが示唆された。
- 参考スコア(独自算出の注目度): 3.974422712382188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open data portals are essential for providing public access to open datasets. However, their search interfaces typically rely on keyword-based mechanisms and a narrow set of metadata fields. This design makes it difficult for users to find datasets using natural language queries. The problem is worsened by metadata that is often incomplete or inconsistent, especially when users lack familiarity with domain-specific terminology. In this paper, we examine how individual metadata fields affect the success of conversational dataset retrieval and whether LLMs can help bridge the gap between natural queries and structured metadata. We conduct a controlled ablation study using simulated natural language queries over real-world datasets to evaluate retrieval performance under various metadata configurations. We also compare existing content of the metadata field 'description' with LLM-generated content, exploring how different prompting strategies influence quality and impact on search outcomes. Our findings suggest that dataset descriptions play a central role in aligning with user intent, and that LLM-generated descriptions can support effective retrieval. These results highlight both the limitations of current metadata practices and the potential of generative models to improve dataset discoverability in open data portals.
- Abstract(参考訳): オープンデータセットへのパブリックアクセスを提供するには、オープンデータポータルが不可欠だ。
しかし、それらの検索インターフェイスは一般的にキーワードベースのメカニズムとメタデータフィールドの狭いセットに依存している。
この設計により、自然言語クエリを使ってデータセットを見つけるのが難しくなる。
この問題は、特にユーザーがドメイン固有の用語に精通していない場合、しばしば不完全または一貫性のないメタデータによって悪化する。
本稿では,個々のメタデータフィールドが対話型データセット検索の成功にどう影響するか,LLMが自然言語と構造化メタデータのギャップを埋めるのに役立つかを検討する。
実世界のデータセット上での自然言語クエリをシミュレーションし,様々なメタデータ構成による検索性能の評価を行う。
また、メタデータフィールド「記述」の既存の内容とLCM生成コンテンツを比較し、異なるプロンプト戦略が品質や検索結果に与える影響について検討する。
以上の結果から,データセット記述がユーザ意図と整合する上で中心的な役割を果たし,LLM生成記述が効果的な検索を支援することが示唆された。
これらの結果は、現在のメタデータプラクティスの限界と、オープンデータポータルにおけるデータセット発見性を改善するための生成モデルの可能性の両方を強調している。
関連論文リスト
- ArcBERT: An LLM-based Search Engine for Exploring Integrated Multi-Omics Metadata [0.4077787659104315]
ArcBERTは自然言語クエリを理解し、従来の検索アプリケーションとは異なり、セマンティックマッチングに依存している。
ArcBERTはメタデータ内の構造や階層も理解しており、多様なユーザクエリパターンを効果的に処理することができる。
論文 参考訳(メタデータ) (2025-12-17T12:11:14Z) - Flexible metadata harvesting for ecology using large language models [3.4117490081172774]
大規模言語モデル(LLM)に基づくメタデータ抽出装置を開発した。
任意のデータセットのランディングページからメタデータを柔軟に抽出する。
既存のメタデータ標準を使用して、これらをユーザ定義の統一フォーマットに変換する。
論文 参考訳(メタデータ) (2025-08-21T10:10:29Z) - Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。
データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。
分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-05T17:59:26Z) - Harmonizing Metadata of Language Resources for Enhanced Querying and Accessibility [0.0]
本稿では,言語資源の多種多様なリポジトリ(LR)からのメタデータの調和について述べる。
我々の手法は,新たに開発されたポータルであるLinghubを通じて,テキストベースの検索,ファステッドブラウジング,高度なSPARQLクエリをサポートする。
この研究は、メタデータの調和を高めるために、重要なメタデータの問題とオープンな語彙と標準に固執することを提唱する。
論文 参考訳(メタデータ) (2025-01-09T22:48:43Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。
文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Metadata Shaping: Natural Language Annotations for the Tail [4.665656172490747]
言語モデル(LM)は目覚ましい進歩を遂げているが、訓練データから稀な言語パターンへの一般化に苦慮している。
本稿では,情報理論の指標に基づく例に,エンティティ記述やカテゴリタグなどの手軽に利用できるメタデータを付加する手法を提案する。
LMの変更はないが、メタデータの整形はBERTベースラインを5.3F1ポイントまで越え、最先端の結果と競合する。
論文 参考訳(メタデータ) (2021-10-16T01:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。