論文の概要: Beyond Questions: Leveraging ColBERT for Keyphrase Search
- arxiv url: http://arxiv.org/abs/2412.03193v1
- Date: Wed, 04 Dec 2024 10:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:06:24.167836
- Title: Beyond Questions: Leveraging ColBERT for Keyphrase Search
- Title(参考訳): 質問を超えて: キーワード検索にColBERTを活用する
- Authors: Jorge Gabín, Javier Parapar, Craig Macdonald,
- Abstract要約: キーワード検索は伝統的にウェブ検索の基盤となっている。
現在の高密度検索モデルは、しばしばキーフレーズのようなクエリで失敗する。
本稿では,キーフレーズクエリの文書ランキング向上にColBERTアーキテクチャを用いた新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 13.262269510021333
- License:
- Abstract: While question-like queries are gaining popularity and search engines' users increasingly adopt them, keyphrase search has traditionally been the cornerstone of web search. This query type is also prevalent in specialised search tasks such as academic or professional search, where experts rely on keyphrases to articulate their information needs. However, current dense retrieval models often fail with keyphrase-like queries, primarily because they are mostly trained on question-like ones. This paper introduces a novel model that employs the ColBERT architecture to enhance document ranking for keyphrase queries. For that, given the lack of large keyphrase-based retrieval datasets, we first explore how Large Language Models can convert question-like queries into keyphrase format. Then, using those keyphrases, we train a keyphrase-based ColBERT ranker (ColBERTKP_QD) to improve the performance when working with keyphrase queries. Furthermore, to reduce the training costs associated with training the full ColBERT model, we investigate the feasibility of training only a keyphrase query encoder while keeping the document encoder weights static (ColBERTKP_Q). We assess our proposals' ranking performance using both automatically generated and manually annotated keyphrases. Our results reveal the potential of the late interaction architecture when working under the keyphrase search scenario.
- Abstract(参考訳): 質問のようなクエリが人気を博し、検索エンジンのユーザがそれを採用する一方で、伝統的にキーワード検索がウェブ検索の基盤となっている。
このクエリタイプは、専門的な検索タスク、例えば学術的な検索や専門的な検索でも一般的である。
しかしながら、現在の高密度検索モデルは、主に質問のようなクエリで訓練されているため、キーフレーズのようなクエリで失敗することが多い。
本稿では,キーフレーズクエリの文書ランキング向上にColBERTアーキテクチャを用いた新しいモデルを提案する。
そのため、キーフレーズベースの検索データセットが不足していることを考えると、Large Language Modelsが質問のようなクエリをキーフレーズ形式に変換する方法について検討する。
次に、これらのキーフレーズを用いて、キーフレーズベースのColBERTランキング(ColBERTKP_QD)をトレーニングし、キーフレーズクエリを扱う際のパフォーマンスを改善する。
さらに、フルColBERTモデルのトレーニングに伴うトレーニングコストを削減するため、文書エンコーダの重みを静的に保ちながら、キーフレーズクエリエンコーダのみをトレーニング可能にする可能性を検討する(ColBERTKP_Q)。
本稿では,自動生成キーフレーズと手動注釈付きキーフレーズの両方を用いて提案手法のランク付け性能を評価する。
この結果から,キーフレーズ検索のシナリオの下で作業する場合の遅延相互作用アーキテクチャの可能性を明らかにした。
関連論文リスト
- Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Keyword Embeddings for Query Suggestion [3.7900158137749322]
本稿では,科学文献に基づいて学習したキーワード提案タスクのための2つの新しいモデルを提案する。
我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。
我々は,タスクのベースラインよりも大幅に改善された,最先端の単語と文の埋め込みモデルに対する提案を評価した。
論文 参考訳(メタデータ) (2023-01-19T11:13:04Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Quotient Space-Based Keyword Retrieval in Sponsored Search [7.639289301435027]
代名詞検索は, 代名詞検索において重要な問題となっている。
本稿では,この問題に対処する新しい空間探索フレームワークを提案する。
この方法はBaiduのオンライン検索システムでうまく実装されている。
論文 参考訳(メタデータ) (2021-05-26T07:27:54Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Exclusive Hierarchical Decoding for Deep Keyphrase Generation [63.357895318562214]
キーフレーズ生成(KG)は、文書の主要なアイデアをキーフレーズの集合にまとめることを目的としている。
この設定の以前の作業では、キーフレーズを生成するためのシーケンシャルなデコードプロセスが使用されている。
本稿では,階層的復号化プロセスとソフトかハードかのいずれかを含む排他的階層的復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T02:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。