論文の概要: Improving Content Retrievability in Search with Controllable Query
Generation
- arxiv url: http://arxiv.org/abs/2303.11648v1
- Date: Tue, 21 Mar 2023 07:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:13:45.063878
- Title: Improving Content Retrievability in Search with Controllable Query
Generation
- Title(参考訳): 制御可能なクエリ生成による検索におけるコンテンツ検索性の改善
- Authors: Gustavo Penha, Enrico Palumbo, Maryam Aziz, Alice Wang and Hugues
Bouchard
- Abstract要約: マシンが学習した検索エンジンは高い検索可能性バイアスを持ち、クエリの大部分が同じエンティティを返す。
そこで我々はCtrlQGenを提案する。CtrlQGenは、選択したインテントナローあるいは広義のクエリを生成する方法である。
音楽,ポッドキャスト,書籍の各分野のデータセットから得られた結果から,高密度検索モデルの検索可能性バイアスを著しく低減できることがわかった。
- 参考スコア(独自算出の注目度): 5.450798147045502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important goal of online platforms is to enable content discovery, i.e.
allow users to find a catalog entity they were not familiar with. A
pre-requisite to discover an entity, e.g. a book, with a search engine is that
the entity is retrievable, i.e. there are queries for which the system will
surface such entity in the top results. However, machine-learned search engines
have a high retrievability bias, where the majority of the queries return the
same entities. This happens partly due to the predominance of narrow intent
queries, where users create queries using the title of an already known entity,
e.g. in book search 'harry potter'. The amount of broad queries where users
want to discover new entities, e.g. in music search 'chill lyrical electronica
with an atmospheric feeling to it', and have a higher tolerance to what they
might find, is small in comparison. We focus here on two factors that have a
negative impact on the retrievability of the entities (I) the training data
used for dense retrieval models and (II) the distribution of narrow and broad
intent queries issued in the system. We propose CtrlQGen, a method that
generates queries for a chosen underlying intent-narrow or broad. We can use
CtrlQGen to improve factor (I) by generating training data for dense retrieval
models comprised of diverse synthetic queries. CtrlQGen can also be used to
deal with factor (II) by suggesting queries with broader intents to users. Our
results on datasets from the domains of music, podcasts, and books reveal that
we can significantly decrease the retrievability bias of a dense retrieval
model when using CtrlQGen. First, by using the generated queries as training
data for dense models we make 9% of the entities retrievable (go from zero to
non-zero retrievability). Second, by suggesting broader queries to users, we
can make 12% of the entities retrievable in the best case.
- Abstract(参考訳): オンラインプラットフォームの重要な目標は、コンテンツ発見を可能にすることである。
本のようなエンティティを検索エンジンで発見するための前提条件は、そのエンティティが検索可能であること、すなわち、システムがトップ結果でそのようなエンティティを表面化するクエリが存在することである。
しかし、機械主導の検索エンジンは検索可能なバイアスが高く、クエリの大部分は同じエンティティを返す。
これは、書籍検索の'harry potter'のように、すでに知られているエンティティのタイトルを使ってクエリを作成するという、狭いインテントクエリが優勢なためでもある。
ユーザが新しいエンティティを発見したい場合,例えば,音楽検索の「大気感の強いリルリカルエレクトロナ」などにおいて,発見するものに対する高い耐性を有するような広いクエリの量は,比較に乏しい。
本稿では,情報収集モデルに使用される学習データと,システム内で発行される狭義および広義のインテント問合せの分布について,エンティティの検索可能性に悪影響を及ぼす2つの要因に注目した。
そこで我々はCtrlQGenを提案する。CtrlQGenは、選択したインテントナローあるいは広義のクエリを生成する方法である。
我々はctrlqgenを用いて,多種多様な合成クエリからなる高密度検索モデルの学習データを生成することにより,因子(i)を改善することができる。
CtrlQGenは、より広範な意図を持ったクエリをユーザに提案することで、ファクタ(II)を扱うためにも使用できる。
音楽,ポッドキャスト,書籍の各分野のデータセットから得られた結果から,CtrlQGenを用いて高密度検索モデルの検索可能性バイアスを大幅に低減できることがわかった。
まず、生成されたクエリを高密度モデルのトレーニングデータとして使用することにより、9%のエンティティを検索可能にする(0から0から0に)。
第二に、ユーザにより広範なクエリを提案することで、ベストケースで12%のエンティティを検索できるようになります。
関連論文リスト
- Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Enhanced Facet Generation with LLM Editing [5.4327243200369555]
情報検索においては,ユーザクエリのファセット識別が重要な課題である。
従来の研究は,検索によって得られた検索文書や関連クエリを活用することで,ファセット予測を強化することができる。
しかし、検索エンジンがモデルの一部として動作する場合、他のアプリケーションに拡張することは困難である。
論文 参考訳(メタデータ) (2024-03-25T00:43:44Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Decoding a Neural Retriever's Latent Space for Query Suggestion [28.410064376447718]
本稿では,有意なクエリをその潜在表現から復号することが可能であること,また,潜在空間の正しい方向に移動すると,関連する段落を検索するクエリを復号することができることを示す。
クエリデコーダを用いて、MSMarcoのクエリ再構成の大規模な合成データセットを生成する。
このデータに基づいて、クエリー提案の適用のために擬似関連フィードバック(PRF)T5モデルを訓練する。
論文 参考訳(メタデータ) (2022-10-21T16:19:31Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - APRF-Net: Attentive Pseudo-Relevance Feedback Network for Query
Categorization [12.634704014206294]
クエリ分類のためのレアクエリの表現を強化するために,textbfAttentive textbfPseudo textbfRelevance textbfFeedback textbfNetwork (APRF-Net) という新しいディープニューラルネットワークを提案する。
以上の結果から,APRF-Netはクエリ分類をF1@1$スコアで5.9%改善し,レアクエリでは8.2%向上した。
論文 参考訳(メタデータ) (2021-04-23T02:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。