論文の概要: Pairwise Judgment Formulation for Semantic Embedding Model in Web Search
- arxiv url: http://arxiv.org/abs/2408.04197v1
- Date: Thu, 8 Aug 2024 03:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:50:38.468098
- Title: Pairwise Judgment Formulation for Semantic Embedding Model in Web Search
- Title(参考訳): Web検索における意味的埋め込みモデルに対するペアワイズ判断定式化
- Authors: Mengze Hong, Chen Jason Zhang,
- Abstract要約: 本研究は,SEMの相互判定を行うための幅広い戦略について,より詳細な調査を行う。
興味深い(おそらく驚くべき)発見は、従来のペアワイド・ラーニング・トゥ・ランドの分野において、従来のペアワイド・判断戦略がSEMのトレーニングに必ずしも有効ではないことを示している。
- 参考スコア(独自算出の注目度): 0.9259162918330403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Embedding Model (SEM), a neural network-based Siamese architecture, is gaining momentum in information retrieval and natural language processing. In order to train SEM in a supervised fashion for Web search, the search engine query log is typically utilized to automatically formulate pairwise judgments as training data. Despite the growing application of semantic embeddings in the search engine industry, little work has been done on formulating effective pairwise judgments for training SEM. In this paper, we make the first in-depth investigation of a wide range of strategies for generating pairwise judgments for SEM. An interesting (perhaps surprising) discovery reveals that the conventional pairwise judgment formulation strategy wildly used in the field of pairwise Learning-to-Rank (LTR) is not necessarily effective for training SEM. Through a large-scale empirical study based on query logs and click-through activities from a major commercial search engine, we demonstrate the effective strategies for SEM and highlight the advantages of a hybrid heuristic (i.e., Clicked > Non-Clicked) in comparison to the atomic heuristics (e.g., Clicked > Skipped) in LTR. We conclude with best practices for training SEM and offer promising insights for future research.
- Abstract(参考訳): ニューラルネットワークに基づくSiameseアーキテクチャであるSemantic Embedding Model (SEM)は,情報検索や自然言語処理において勢いを増している。
Web検索のための教師付き方式でSEMを訓練するために、検索エンジンのクエリログは、訓練データとしてペアの判断を自動的に定式化するのに使われるのが一般的である。
検索エンジン業界におけるセマンティックな埋め込みの応用が増えているにもかかわらず、SEMを訓練するための効果的なペアワイズ判断を定式化するための作業はほとんど行われていない。
本稿では,SEMの対判定を行うための幅広い戦略について,初めて詳細に検討する。
興味深い(おそらく驚くべき)発見は、従来のペアワイズ・ラーニング・トゥ・ランド(LTR)の分野において、従来のペアワイズ・フォーミュレーション・ストラテジーがSEMのトレーニングに必ずしも有効ではないことを示している。
主要な商用検索エンジンからのクエリログとクリックスルー活動に基づく大規模な実証的研究を通じて、SEMの効果的な戦略を実証し、LTRの原子ヒューリスティック(例えば、Clicked > Skipped)と比較してハイブリッドヒューリスティック(Clicked > Non-Clicked)の利点を強調した。
我々は、SEMのトレーニングのベストプラクティスを締めくくり、将来の研究に有望な洞察を提供する。
関連論文リスト
- LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。
提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Best Practices for Distilling Large Language Models into BERT for Web Search Ranking [14.550458167328497]
LLM(Large Language Models)は、潜在的文書のランク付けリストを生成する。
LLMのランキングの専門知識をBERTのようなよりコンパクトなモデルに移行し、ランキングの損失を利用して、リソース集約の少ないモデルのデプロイを可能にします。
2024年2月現在,我々のモデルは商用ウェブ検索エンジンに統合されている。
論文 参考訳(メタデータ) (2024-11-07T08:54:46Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - Extreme Learning Machines for Fast Training of Click-Through Rate Prediction Models [0.0]
Extreme Learning Machines (ELM)は、ニューラルネットワークにおける従来の勾配に基づく学習の高速な代替手段を提供する。
クリックスルーレート(CTR)予測におけるEMMの適用について検討する。
我々は,CTRタスクの性能向上のために,埋め込み層により拡張されたEMMベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-06-25T13:50:00Z) - Machine Unlearning of Pre-trained Large Language Models [17.40601262379265]
本研究では,大規模言語モデル(LLM)の文脈における「忘れられる権利」の概念について検討する。
我々は、事前学習されたモデルに焦点をあてて、機械学習を重要なソリューションとして探求する。
論文 参考訳(メタデータ) (2024-02-23T07:43:26Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。