論文の概要: Improving Query Safety at Pinterest
- arxiv url: http://arxiv.org/abs/2006.11511v2
- Date: Tue, 23 Jun 2020 04:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:55:00.629928
- Title: Improving Query Safety at Pinterest
- Title(参考訳): Pinterestにおけるクエリ安全性の改善
- Authors: Abhijit Mahabal, Yinrui Li, Rajat Raina, Daniel Sun, Revati Mahajan,
Jure Leskovec
- Abstract要約: PinSetsはクエリセット拡張のためのシステムである。
ユーザセッションの検索にはシンプルだが強力なメカニズムが適用される。
小さなシードセットを何千もの関連するクエリにほぼ完全な精度で拡張する。
- 参考スコア(独自算出の注目度): 46.57632646205479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query recommendations in search engines is a double edged sword, with
undeniable benefits but potential of harm. Identifying unsafe queries is
necessary to protect users from inappropriate query suggestions. However,
identifying these is non-trivial because of the linguistic diversity resulting
from large vocabularies, social-group-specific slang and typos, and because the
inappropriateness of a term depends on the context. Here we formulate the
problem as query-set expansion, where we are given a small and potentially
biased seed set and the aim is to identify a diverse set of semantically
related queries. We present PinSets, a system for query-set expansion, which
applies a simple yet powerful mechanism to search user sessions, expanding a
tiny seed set into thousands of related queries at nearly perfect precision,
deep into the tail, along with explanations that are easy to interpret. PinSets
owes its high quality expansion to using a hybrid of textual and behavioral
techniques (i.e., treating queries both as compositional and as black boxes).
Experiments show that, for the domain of drugs-related queries, PinSets expands
20 seed queries into 15,670 positive training examples at over 99\% precision.
The generated expansions have diverse vocabulary and correctly handles words
with ambiguous safety. PinSets decreased unsafe query suggestions at Pinterest
by 90\%.
- Abstract(参考訳): 検索エンジンにおけるクエリのレコメンデーションは両刃の剣であり、否定できない利点があるが害の可能性がある。
不適切なクエリ提案からユーザを保護するためには,unsafeクエリの特定が不可欠だ。
しかし、これらを識別することは、大きな語彙、社会集団固有のスラングとタイプポスによって生じる言語多様性と、用語の不適切な性が文脈に依存するため、非自明である。
ここで、問題をクエリセットの拡張として定式化し、小さく、潜在的に偏ったシードセットを与えられ、意味論的に関連するさまざまなクエリ集合を特定することを目的としています。
クエリセット拡張システムであるPinSetsは、ユーザセッションの検索にシンプルだが強力なメカニズムを適用し、小さなシードセットを、ほぼ完璧な精度で数千の関連するクエリに拡張し、解釈が容易な説明とともに、テールに深く入り込む。
pinsetsは、テキストとビヘイビアのハイブリッド技術(つまり、クエリをコンポジションとブラックボックスの両方として扱う)を使用することで、高品質な拡張を実現している。
実験によると、薬物関連クエリの領域において、pinsetsは20のシードクエリを99\%以上の精度で15,670のポジティブトレーニング例に拡張する。
生成された拡張は多様な語彙を持ち、曖昧な安全性で単語を正しく扱う。
PinSetsはPinterestの安全でないクエリ提案を90%削減した。
関連論文リスト
- AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries [56.82807063333088]
我々は,新たなベンチマークであるAMBROSIAを導入し,テキスト・ツー・オープン・プログラムの開発を促進することを期待する。
私たちのデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)を示す質問が含まれている。
いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。
これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。
論文 参考訳(メタデータ) (2024-06-27T10:43:04Z) - Blowfish: Topological and statistical signatures for quantifying ambiguity in semantic search [0.0]
提案手法では, プロキシのあいまいなクエリは, プロキシのクリアなクエリよりも, 0 と 1 をベースとした関数の分布が異なることを示す。
本稿では,これらの知見を意味的類似性の新たな評価戦略として活用する戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T08:26:30Z) - QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set
Operations [36.70770411188946]
QUESTは、暗黙のセット操作を備えた3357の自然言語クエリのデータセットである。
データセットは、クエリで言及された複数の制約と、ドキュメントの対応するエビデンスにマッチするようにモデルに挑戦する。
我々は,現代の検索システムを分析し,それらがこのようなクエリに苦しむ場合が多いことを発見した。
論文 参考訳(メタデータ) (2023-05-19T14:19:32Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Graph Enhanced BERT for Query Understanding [55.90334539898102]
クエリ理解は、ユーザの検索意図を探索し、ユーザが最も望まれる情報を発見できるようにする上で、重要な役割を果たす。
近年、プレトレーニング言語モデル (PLM) は様々な自然言語処理タスクを進歩させてきた。
本稿では,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。
論文 参考訳(メタデータ) (2022-04-03T16:50:30Z) - ConQX: Semantic Expansion of Spoken Queries for Intent Detection based
on Conditioned Text Generation [4.264192013842096]
本稿では,ConQXと呼ばれる音声クエリのセマンティック拡張手法を提案する。
オフトピーテキスト生成を避けるため、インプットクエリを構造化コンテキストに条件付け、即時マイニングを行う。
次に、インテント検出のために、ゼロショット、ワンショット、および少数ショットの学習をBERTとRoBERTaを微調整する。
論文 参考訳(メタデータ) (2021-09-02T05:57:07Z) - Session-Aware Query Auto-completion using Extreme Multi-label Ranking [61.753713147852125]
本稿では,セッション対応クエリ自動補完の新たな手法を,XMR(Multi Multi-Xtreme Ranking)問題として取り上げる。
アルゴリズムのキーステップにいくつかの修正を提案することにより、この目的のために一般的なXMRアルゴリズムを適応させる。
当社のアプローチは、セッション情報を活用しながら、自動補完システムの厳しいレイテンシ要件を満たします。
論文 参考訳(メタデータ) (2020-12-09T17:56:22Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - Coupled intrinsic and extrinsic human language resource-based query
expansion [0.0]
本稿では,クエリ構成エンコーディングや拡張概念抽出,概念重み付けといった言語特性を活かしたクエリ拡張フレームワークを提案する。
実世界のデータセットに対する徹底的な経験的評価は、ユニグラム言語モデル、関連モデル、逐次依存に基づく手法に対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-23T11:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。