論文の概要: Why These Documents? Explainable Generative Retrieval with Hierarchical Category Paths
- arxiv url: http://arxiv.org/abs/2411.05572v1
- Date: Fri, 08 Nov 2024 13:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:20.918594
- Title: Why These Documents? Explainable Generative Retrieval with Hierarchical Category Paths
- Title(参考訳): なぜこれらの文書は階層的なカテゴリーパスを持つ説明可能な生成検索をするのか
- Authors: Sangam Lee, Ryang Heo, SeongKu Kang, Susik Yoon, Jinyoung Yeo, Dongha Lee,
- Abstract要約: 本稿では階層的カテゴリパス強化生成検索(HyPE)を提案する。
実験の結果,HyPEは高レベルな説明性を提供するだけでなく,文書検索作業における検索性能も向上することがわかった。
- 参考スコア(独自算出の注目度): 26.09002478892026
- License:
- Abstract: Generative retrieval has recently emerged as a new alternative of traditional information retrieval approaches. However, existing generative retrieval methods directly decode docid when a query is given, making it impossible to provide users with explanations as an answer for "Why this document is retrieved?". To address this limitation, we propose Hierarchical Category Path-Enhanced Generative Retrieval(HyPE), which enhances explainability by generating hierarchical category paths step-by-step before decoding docid. HyPE leverages hierarchical category paths as explanation, progressing from broad to specific semantic categories. This approach enables diverse explanations for the same document depending on the query by using shared category paths between the query and the document, and provides reasonable explanation by reflecting the document's semantic structure through a coarse-to-fine manner. HyPE constructs category paths with external high-quality semantic hierarchy, leverages LLM to select appropriate candidate paths for each document, and optimizes the generative retrieval model with path-augmented dataset. During inference, HyPE utilizes path-aware reranking strategy to aggregate diverse topic information, allowing the most relevant documents to be prioritized in the final ranked list of docids. Our extensive experiments demonstrate that HyPE not only offers a high level of explainability but also improves the retrieval performance in the document retrieval task.
- Abstract(参考訳): 近年,従来の情報検索手法の代替としてジェネレーティブ検索が登場している。
しかし、既存の生成的検索手法では、クエリが与えられた場合、ドシデントを直接デコードするので、「なぜこの文書が検索されるのか?」という回答として、ユーザに説明を提供することは不可能である。
この制限に対処するため,階層的カテゴリパス拡張生成検索(HyPE)を提案する。
HyPEは階層的なカテゴリパスを説明として利用し、広範囲から特定のセマンティックなカテゴリへと進化する。
提案手法は,クエリとドキュメント間の共有カテゴリパスを用いて,問合せに応じて同じ文書に対して多種多様な説明を行うことを可能にし,文書のセマンティック構造を粗い方法で反映することによって合理的な説明を提供する。
HyPEは、外部の高品質なセマンティック階層でカテゴリパスを構築し、LCMを活用して各ドキュメントに適切な候補パスを選択し、パス拡張データセットで生成検索モデルを最適化する。
推論中、HyPEはパス認識の再分類戦略を使用して、さまざまなトピック情報を集約し、最も関連性の高い文書を最終ランクのドクトリストに優先順位付けすることができる。
我々は,HyPEが高レベルな説明性を提供するだけでなく,文書検索作業における検索性能も向上することを示した。
関連論文リスト
- Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Crafting the Path: Robust Query Rewriting for Information Retrieval [4.252699657665555]
本稿では,検索システムに適した新しい構造化クエリ書き換え手法であるCrafting the Pathを提案する。
本研究では,本手法がモデルの内部パラメータの知識に依存せず,事実的不正確なクエリを生成することを示す。
論文 参考訳(メタデータ) (2024-07-17T13:11:28Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。
ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。
階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文 参考訳(メタデータ) (2024-03-09T21:55:55Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。