論文の概要: Improving Scientific Document Retrieval with Concept Coverage-based Query Set Generation
- arxiv url: http://arxiv.org/abs/2502.11181v1
- Date: Sun, 16 Feb 2025 15:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:37.251096
- Title: Improving Scientific Document Retrieval with Concept Coverage-based Query Set Generation
- Title(参考訳): 概念被覆に基づくクエリセット生成による科学的文書検索の改善
- Authors: SeongKu Kang, Bowen Jin, Wonbin Kweon, Yu Zhang, Dongha Lee, Jiawei Han, Hwanjo Yu,
- Abstract要約: 概念カバレッジに基づくクエリセット生成(CCQGen)フレームワークは、ドキュメントの概念を包括的に網羅したクエリセットを生成するように設計されている。
従来のクエリでは十分にカバーされていない概念を識別し,その後のクエリ生成の条件として活用する。
このアプローチは、それぞれの新しいクエリをガイドして、以前のクエリを補完し、ドキュメントの徹底的な理解を支援する。
- 参考スコア(独自算出の注目度): 49.29180578078616
- License:
- Abstract: In specialized fields like the scientific domain, constructing large-scale human-annotated datasets poses a significant challenge due to the need for domain expertise. Recent methods have employed large language models to generate synthetic queries, which serve as proxies for actual user queries. However, they lack control over the content generated, often resulting in incomplete coverage of academic concepts in documents. We introduce Concept Coverage-based Query set Generation (CCQGen) framework, designed to generate a set of queries with comprehensive coverage of the document's concepts. A key distinction of CCQGen is that it adaptively adjusts the generation process based on the previously generated queries. We identify concepts not sufficiently covered by previous queries, and leverage them as conditions for subsequent query generation. This approach guides each new query to complement the previous ones, aiding in a thorough understanding of the document. Extensive experiments demonstrate that CCQGen significantly enhances query quality and retrieval performance.
- Abstract(参考訳): 科学的領域のような専門分野において、大規模な人間アノテーション付きデータセットの構築は、ドメインの専門知識を必要とするため、大きな課題となる。
近年の手法では、実際のユーザクエリのプロキシとして機能する合成クエリを生成するために、大規模な言語モデルが採用されている。
しかし、それらには生成された内容の制御が欠如しており、多くの場合、学術的な概念を文書に網羅することができない。
本稿では,ドキュメントの概念を包括的に網羅したクエリセットを生成するために設計された,概念カバレッジベースのクエリセット生成(CCQGen)フレームワークを紹介する。
CCQGenの重要な違いは、前述したクエリに基づいて生成プロセスを適応的に調整する点である。
従来のクエリでは十分にカバーされていない概念を識別し,その後のクエリ生成の条件として活用する。
このアプローチは、それぞれの新しいクエリをガイドして、以前のクエリを補完し、ドキュメントの徹底的な理解を支援する。
CCQGenはクエリ品質と検索性能を大幅に向上させる。
関連論文リスト
- ConTReGen: Context-driven Tree-structured Retrieval for Open-domain Long-form Text Generation [26.4086456393314]
長い形式のテキスト生成には、幅と深さの両方で複雑なクエリに対処する一貫性のある包括的な応答が必要である。
既存の反復的な検索拡張生成アプローチは、複雑なクエリの各側面を深く掘り下げるのに苦労することが多い。
本稿では,コンテキスト駆動型木構造検索手法を用いた新しいフレームワークであるConTReGenを紹介する。
論文 参考訳(メタデータ) (2024-10-20T21:17:05Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。