論文の概要: How good are LLMs at Retrieving Documents in a Specific Domain?
- arxiv url: http://arxiv.org/abs/2509.22658v1
- Date: Mon, 25 Aug 2025 19:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.03381
- Title: How good are LLMs at Retrieving Documents in a Specific Domain?
- Title(参考訳): LLMは特定のドメインでドキュメントを取得するのにどれくらい優れているか?
- Authors: Nafis Tanveer Islam, Zhiming Zhao,
- Abstract要約: 本稿では,ドメイン固有の評価データセットをキュレートして検索システムの性能を解析する自動手法を提案する。
本研究では,Large Language Models (LLMs) を用いたRAG(Retrieval of Augmented Generation)を組み込んで,自然言語クエリを用いた環境領域データの高品質な検索を行う。
- 参考スコア(独自算出の注目度): 3.282961543904818
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Classical search engines using indexing methods in data infrastructures primarily allow keyword-based queries to retrieve content. While these indexing-based methods are highly scalable and efficient, due to a lack of an appropriate evaluation dataset and a limited understanding of semantics, they often fail to capture the user's intent and generate incomplete responses during evaluation. This problem also extends to domain-specific search systems that utilize a Knowledge Base (KB) to access data from various research infrastructures. Research infrastructures (RIs) from the environmental and earth science domain, which encompass the study of ecosystems, biodiversity, oceanography, and climate change, generate, share, and reuse large volumes of data. While there are attempts to provide a centralized search service using Elasticsearch as a knowledge base, they also face similar challenges in understanding queries with multiple intents. To address these challenges, we proposed an automated method to curate a domain-specific evaluation dataset to analyze the capability of a search system. Furthermore, we incorporate the Retrieval of Augmented Generation (RAG), powered by Large Language Models (LLMs), for high-quality retrieval of environmental domain data using natural language queries. Our quantitative and qualitative analysis of the evaluation dataset shows that LLM-based systems for information retrieval return results with higher precision when understanding queries with multiple intents, compared to Elasticsearch-based systems.
- Abstract(参考訳): データ基盤における索引付け手法を用いた古典的な検索エンジンは、主にキーワードベースのクエリでコンテンツを検索することができる。
これらのインデクシングベースの手法は、適切な評価データセットが欠如し、セマンティクスの理解が限られているため、非常にスケーラブルで効率的であるが、ユーザの意図を捉え、評価中に不完全な応答を生成することがしばしばある。
この問題は、知識ベース(KB)を用いて様々な研究基盤からデータにアクセスするドメイン固有の検索システムにも拡張される。
環境・地球科学分野の研究インフラ(RI)は、生態系、生物多様性、海洋学、気候変動の研究を包含し、大量のデータを生成し、共有し、再利用する。
Elasticsearchをナレッジベースとする集中型検索サービスの提供は試みられているが、クエリを複数のインテントで理解する上でも同様の課題に直面している。
これらの課題に対処するために、ドメイン固有の評価データセットをキュレートし、検索システムの性能を解析する自動化手法を提案する。
さらに,Large Language Models (LLMs) を利用したRetrieval of Augmented Generation (RAG) を組み込んで,自然言語クエリを用いた環境領域データの高品質な検索を行う。
評価データセットの定量的および定性的な分析により,複数の意図によるクエリの理解において,LLMベースの情報検索システムは,Elasticsearchベースのシステムと比較して高い精度で結果を返すことを示した。
関連論文リスト
- Simplifying Data Integration: SLM-Driven Systems for Unified Semantic Queries Across Heterogeneous Databases [0.0]
本稿では,Small Language Model(SLM)をベースとした,軽量な検索・拡張生成(RAG)とセマンティック・アウェアなデータ構造化の進歩を相乗化するシステムを提案する。
SLMを用いた構造化データ抽出にMiniRAGのセマンティック・アウェア・ヘテロジニアス・グラフインデックスとトポロジ・エンハンス・検索を統合し,従来の手法の限界に対処する。
実験結果は精度と効率性において優れた性能を示し、教師なし評価指標としてのセマンティックエントロピーの導入はモデルの不確実性に対する堅牢な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T03:28:03Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Semantically-Enriched Search Engine for Geoportals: A Case Study with
ArcGIS Online [7.005838154484841]
本稿では,Lucene-based technique を用いた地理ポータルのためのセマンティック・エンリッチな検索エンジンを提案する。
提案するフレームワークを評価するために,ベンチマークデータセットを構築した。
評価の結果,提案するセマンティッククエリ拡張フレームワークは,ユーザの検索意図を捉えるのに非常に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-03-14T06:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。