論文の概要: Comparing how Large Language Models perform against keyword-based searches for social science research data discovery
- arxiv url: http://arxiv.org/abs/2601.19559v1
- Date: Tue, 27 Jan 2026 12:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:38:58.787735
- Title: Comparing how Large Language Models perform against keyword-based searches for social science research data discovery
- Title(参考訳): 社会科学研究データ発見のためのキーワードベース検索に対する大規模言語モデルの性能比較
- Authors: Mark Green, Maura Halstead, Caroline Jay, Richard Kingston, Alex Singleton, David Topping,
- Abstract要約: 本稿では,従来のキーワードに基づくデータ探索と比較して,大規模言語モデル(LLM)に基づく意味探索ツールの性能を評価する。
- 参考スコア(独自算出の注目度): 4.121634776585654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates the performance of a large language model (LLM) based semantic search tool relative to a traditional keyword-based search for data discovery. Using real-world search behaviour, we compare outputs from a bespoke semantic search system applied to UKRI data services with the Consumer Data Research Centre (CDRC) keyword search. Analysis is based on 131 of the most frequently used search terms extracted from CDRC search logs between December 2023 and October 2024. We assess differences in the volume, overlap, ranking, and relevance of returned datasets using descriptive statistics, qualitative inspection, and quantitative similarity measures, including exact dataset overlap, Jaccard similarity, and cosine similarity derived from BERT embeddings. Results show that the semantic search consistently returns a larger number of results than the keyword search and performs particularly well for place based, misspelled, obscure, or complex queries. While the semantic search does not capture all keyword based results, the datasets returned are overwhelmingly semantically similar, with high cosine similarity scores despite lower exact overlap. Rankings of the most relevant results differ substantially between tools, reflecting contrasting prioritisation strategies. Case studies demonstrate that the LLM based tool is robust to spelling errors, interprets geographic and contextual relevance effectively, and supports natural-language queries that keyword search fails to resolve. Overall, the findings suggest that LLM driven semantic search offers a substantial improvement for data discovery, complementing rather than fully replacing traditional keyword-based approaches.
- Abstract(参考訳): 本稿では,従来のキーワードに基づくデータ探索と比較して,大規模言語モデル(LLM)に基づく意味探索ツールの性能を評価する。
実世界の検索行動を用いて,UKRIデータサービスに適用された意味検索システムとCDRC(Consumer Data Research Centre)キーワード検索の出力を比較する。
分析は、2023年12月から2024年10月までにCDRC検索ログから抽出された最も頻繁に使用される検索語131をベースとしている。
記述統計,定性検査,正確なデータセットオーバーラップ,ジャカード類似度,BERT埋め込みによるコサイン類似度などの量的類似度測定を用いて,返却データセットのボリューム,オーバーラップ,ランキング,関連性の評価を行った。
その結果、セマンティック検索はキーワード検索よりもずっと多くの結果を返すことができ、特に場所ベース、ミススペル、不明瞭、複雑なクエリに対してうまく機能することがわかった。
セマンティック検索はすべてのキーワードベースの結果をキャプチャするわけではないが、返されるデータセットは圧倒的にセマンティックに類似しており、正確な重なりが低いにもかかわらずコサイン類似度スコアが高い。
最も関係のある結果のランキングはツールによって大きく異なり、優先順位付け戦略とは対照的である。
ケーススタディでは、LLMベースのツールはエラーの綴りに頑健であり、地理的および文脈的関連性を効果的に解釈し、キーワード検索が解決しない自然言語クエリをサポートする。
全体として、LLMによるセマンティック検索は、従来のキーワードベースのアプローチを完全に置き換えるのではなく、補完することで、データ発見に大幅な改善をもたらすことが示唆されている。
関連論文リスト
- Deep Learning-Based Approach for Improving Relational Aggregated Search [0.46664938579243564]
本研究では,高度自然言語処理技術,すなわち積み重ねオートエンコーダとAraBERT埋め込みの適用について検討する。
従来の検索エンジンの限界を超越して、検索結果のより豊かで文脈に合った特徴付けを提供する。
論文 参考訳(メタデータ) (2025-10-01T14:37:38Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - LLM-assisted Vector Similarity Search [0.0]
本稿では,ベクトル類似性探索とLarge Language Models(LLMs)を組み合わせたハイブリッド手法を提案する。
構造化データセットの実験では、ベクトル類似性検索は単純なクエリに対してのみうまく機能するが、LLM支援アプローチは制約、否定、概念的な要求を含む複雑なクエリを処理するのに優れている。
論文 参考訳(メタデータ) (2024-12-25T08:17:37Z) - Evaluation of Semantic Search and its Role in Retrieved-Augmented-Generation (RAG) for Arabic Language [0.0]
本稿では,アラビア語のセマンティックサーチにおいて,単純かつ強力なベンチマークの確立に尽力する。
これらの指標とデータセットの有効性を正確に評価するために、検索拡張生成(RAG)の枠組み内で意味探索の評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:42:31Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Quotient Space-Based Keyword Retrieval in Sponsored Search [7.639289301435027]
代名詞検索は, 代名詞検索において重要な問題となっている。
本稿では,この問題に対処する新しい空間探索フレームワークを提案する。
この方法はBaiduのオンライン検索システムでうまく実装されている。
論文 参考訳(メタデータ) (2021-05-26T07:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。