論文の概要: Integrity and Junkiness Failure Handling for Embedding-based Retrieval:
A Case Study in Social Network Search
- arxiv url: http://arxiv.org/abs/2304.09287v1
- Date: Tue, 18 Apr 2023 20:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 16:16:43.681995
- Title: Integrity and Junkiness Failure Handling for Embedding-based Retrieval:
A Case Study in Social Network Search
- Title(参考訳): 埋め込み型検索のための統合性とユキネス故障処理 : ソーシャルネットワーク検索を事例として
- Authors: Wenping Wang, Yunxi Guo, Chiyao Shen, Shuai Ding, Guangdeng Liao, Hao
Fu, Pramodh Karanth Prabhakar
- Abstract要約: 埋め込みベースの検索は、eコマースやソーシャルネットワーク検索など、さまざまな検索アプリケーションで使われている。
本稿では,2021年初頭に開始された埋め込み型検索をソーシャルネットワーク検索エンジン上で解析する。
私たちは、それによってもたらされた失敗の2つの主要なカテゴリ、完全性とジャンク性を定義します。
- 参考スコア(独自算出の注目度): 26.705196461992845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding based retrieval has seen its usage in a variety of search
applications like e-commerce, social networking search etc. While the approach
has demonstrated its efficacy in tasks like semantic matching and contextual
search, it is plagued by the problem of uncontrollable relevance. In this
paper, we conduct an analysis of embedding-based retrieval launched in early
2021 on our social network search engine, and define two main categories of
failures introduced by it, integrity and junkiness. The former refers to issues
such as hate speech and offensive content that can severely harm user
experience, while the latter includes irrelevant results like fuzzy text
matching or language mismatches. Efficient methods during model inference are
further proposed to resolve the issue, including indexing treatments and
targeted user cohort treatments, etc. Though being simple, we show the methods
have good offline NDCG and online A/B tests metrics gain in practice. We
analyze the reasons for the improvements, pointing out that our methods are
only preliminary attempts to this important but challenging problem. We put
forward potential future directions to explore.
- Abstract(参考訳): 埋め込みベースの検索は、eコマースやソーシャルネットワーク検索など、さまざまな検索アプリケーションで使われている。
このアプローチはセマンティックマッチングやコンテキスト検索といったタスクで有効性を示しているが、制御不能な関連性の問題に苦しめられている。
本稿では,2021年前半に開始された埋め込み型検索をソーシャルネットワーク検索エンジン上で解析し,それによる障害の2つの主要なカテゴリ,完全性,不愉快性を定義した。
前者はヘイトスピーチや不快なコンテンツといったユーザエクスペリエンスに深刻な害を与える問題を指し、後者はファジィテキストマッチングや言語ミスマッチといった無関係な結果を含んでいる。
モデル推論における効率的な手法は、索引付け処理やユーザコホート処理などを含む課題を解決するために、さらに提案される。
単純ではあるが,本手法はオフラインのNDCGが良好であり,オンラインA/Bテストが実際に得られることを示す。
我々は改善の理由を分析し、この重要な問題に対して、我々の手法は予備的な試みに過ぎないことを指摘した。
我々は将来の方向性を探究する。
関連論文リスト
- VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and
Optimized Search [1.0411820336052784]
本稿では、高度なアルゴリズム、埋め込み、インデックス化技術を活用して洗練された検索を行うVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchがベースラインのメトリクスを上回っている。
論文 参考訳(メタデータ) (2024-09-25T21:58:08Z) - Robust Candidate Generation for Entity Linking on Short Social Media
Texts [1.5006258585503875]
つぶやきの分野では、ユーザーがしばしば非公式な綴りや文脈の制限、特異性の欠如に悩まされることが示される。
我々はウィキペディアの長期的文脈表現を用いたハイブリッドなソリューションを実証し、0.93リコールを達成した。
論文 参考訳(メタデータ) (2022-10-14T02:47:31Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - On the Social and Technical Challenges of Web Search Autosuggestion
Moderation [118.47867428272878]
自動提案は通常、検索ログと文書表現のコーパスに基づいてトレーニングされた機械学習(ML)システムによって生成される。
現在の検索エンジンは、このような問題のある提案を抑えるのに、ますます熟練している。
問題のある提案のいくつかの側面、パイプラインに沿った困難な問題、そしてWeb検索を超えたアプリケーションの増加になぜ私たちの議論が適用されるのかについて論じる。
論文 参考訳(メタデータ) (2020-07-09T19:22:00Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。