論文の概要: From Easy to Hard: A Dual Curriculum Learning Framework for
Context-Aware Document Ranking
- arxiv url: http://arxiv.org/abs/2208.10226v1
- Date: Mon, 22 Aug 2022 12:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:05:58.599642
- Title: From Easy to Hard: A Dual Curriculum Learning Framework for
Context-Aware Document Ranking
- Title(参考訳): easy to hard: コンテキスト対応ドキュメントランキングのための2つのカリキュラム学習フレームワーク
- Authors: Yutao Zhu, Jian-Yun Nie, Yixuan Su, Haonan Chen, Xinyu Zhang, Zhicheng
Dou
- Abstract要約: 文脈対応文書ランキングのためのカリキュラム学習フレームワークを提案する。
我々はこのモデルをグローバルな最適化に向けて徐々に導くことを目指している。
2つの実クエリログデータセットの実験により、提案するフレームワークは、既存のいくつかのメソッドの性能を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 41.8396866002968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual information in search sessions is important for capturing users'
search intents. Various approaches have been proposed to model user behavior
sequences to improve document ranking in a session. Typically, training samples
of (search context, document) pairs are sampled randomly in each training
epoch. In reality, the difficulty to understand user's search intent and to
judge document's relevance varies greatly from one search context to another.
Mixing up training samples of different difficulties may confuse the model's
optimization process. In this work, we propose a curriculum learning framework
for context-aware document ranking, in which the ranking model learns matching
signals between the search context and the candidate document in an
easy-to-hard manner. In so doing, we aim to guide the model gradually toward a
global optimum. To leverage both positive and negative examples, two curricula
are designed. Experiments on two real query log datasets show that our proposed
framework can improve the performance of several existing methods
significantly, demonstrating the effectiveness of curriculum learning for
context-aware document ranking.
- Abstract(参考訳): 検索セッションにおけるコンテキスト情報は,ユーザの検索意図を捉える上で重要である。
セッション中の文書のランキングを改善するために、ユーザ行動シーケンスをモデル化するための様々なアプローチが提案されている。
通常、(検索コンテキスト、ドキュメント)ペアのトレーニングサンプルは、トレーニング期間毎にランダムにサンプリングされる。
実際、ユーザの検索意図を理解し、文書の関連性を判断する困難さは、ある検索コンテキストによって大きく異なる。
異なる困難のトレーニングサンプルを混ぜ合わせると、モデルの最適化プロセスが混乱する可能性がある。
そこで本研究では,検索コンテキストと候補文書のマッチング信号を,難易度の高い方法で学習する,文脈対応文書ランキングのカリキュラム学習フレームワークを提案する。
このようにして、我々はモデルを徐々にグローバルな最適化に向けて導くことを目指している。
正と負の両方の例を利用するために、2つのカリキュラムが設計されている。
2つの実問合せログデータセットを用いた実験により,提案フレームワークは既存のいくつかの手法の性能を大幅に向上し,文脈対応文書ランキングのカリキュラム学習の有効性を示す。
関連論文リスト
- Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文 参考訳(メタデータ) (2023-08-15T11:45:34Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。