論文の概要: Generative Retrieval for Book search
- arxiv url: http://arxiv.org/abs/2501.11034v1
- Date: Sun, 19 Jan 2025 12:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:19:05.448191
- Title: Generative Retrieval for Book search
- Title(参考訳): 書籍検索のための生成検索
- Authors: Yubao Tang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Shihao Liu, Shuaiqing Wang, Dawei Yin, Xueqi Cheng,
- Abstract要約: 書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
- 参考スコア(独自算出の注目度): 106.67655212825025
- License:
- Abstract: In book search, relevant book information should be returned in response to a query. Books contain complex, multi-faceted information such as metadata, outlines, and main text, where the outline provides hierarchical information between chapters and sections. Generative retrieval (GR) is a new retrieval paradigm that consolidates corpus information into a single model to generate identifiers of documents that are relevant to a given query. How can GR be applied to book search? Directly applying GR to book search is a challenge due to the unique characteristics of book search: The model needs to retain the complex, multi-faceted information of the book, which increases the demand for labeled data. Splitting book information and treating it as a collection of separate segments for learning might result in a loss of hierarchical information. We propose an effective Generative retrieval framework for Book Search (GBS) that features two main components: data augmentation and outline-oriented book encoding. For data augmentation, GBS constructs multiple query-book pairs for training; it constructs multiple book identifiers based on the outline, various forms of book contents, and simulates real book retrieval scenarios with varied pseudo-queries. This includes coverage-promoting book identifier augmentation, allowing the model to learn to index effectively, and diversity-enhanced query augmentation, allowing the model to learn to retrieve effectively. Outline-oriented book encoding improves length extrapolation through bi-level positional encoding and retentive attention mechanisms to maintain context over long sequences. Experiments on a proprietary Baidu dataset demonstrate that GBS outperforms strong baselines, achieving a 9.8\% improvement in terms of MRR@20, over the state-of-the-art RIPOR method...
- Abstract(参考訳): 書籍検索では、問い合わせに応じて関連する書籍情報を返さなければならない。
本には、メタデータ、アウトライン、メインテキストなどの複雑な多面的な情報が含まれており、そのアウトラインは章とセクション間の階層的な情報を提供する。
生成検索(GR)は、コーパス情報を単一のモデルに統合し、与えられたクエリに関連するドキュメントの識別子を生成する新しい検索パラダイムである。
書籍検索にGRはどのように適用できるのか?
このモデルは,本書の複雑な多面的情報を保持し,ラベル付きデータの要求を増大させる必要がある。
本情報を分割し、それを学習のための別々のセグメントの集合として扱うと、階層的な情報が失われる可能性がある。
本稿では,データ拡張とアウトライン指向のブックエンコーディングという2つの主要なコンポーネントを特徴とする,書籍検索(GBS)のための効率的な生成検索フレームワークを提案する。
データ拡張のために、GBSはトレーニングのために複数のクエリブックペアを構築し、アウトライン、様々な形態の書籍コンテンツに基づいて複数のブック識別子を構築し、様々な擬似クエリで実際の本検索シナリオをシミュレートする。
これには、カバレッジプロモーティングなブック識別子拡張が含まれており、モデルが効果的なインデックス付けを学べるようにし、多様性が強化されたクエリ拡張により、モデルを効果的に検索することができる。
アウトライン指向のブックエンコーディングは、二段階の位置エンコーディングと注意機構を通じて長さ外挿を改善し、長いシーケンスのコンテキストを維持する。
プロプライエタリなBaiduデータセットの実験によると、GBSは強力なベースラインを上回っ、最先端のRIPORメソッドよりもMRR@20で9.8%改善されている。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる
既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。
本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - A Survey of Generative Information Retrieval [25.1249210843116]
Generative Retrieval (GR) は、情報検索における新たなパラダイムであり、従来のクエリ処理やドキュメントの再ランクを必要とせずに、生成モデルを利用してクエリを関連するドキュメント識別子(DocID)にマップする。
この調査はGRの総合的な概要を提供し、主要な開発、索引付けと検索戦略、課題を強調している。
論文 参考訳(メタデータ) (2024-06-03T10:59:33Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。