論文の概要: Query-oriented Data Augmentation for Session Search
- arxiv url: http://arxiv.org/abs/2407.03720v1
- Date: Thu, 4 Jul 2024 08:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:52:18.237109
- Title: Query-oriented Data Augmentation for Session Search
- Title(参考訳): セッション検索のためのクエリ指向データ拡張
- Authors: Haonan Chen, Zhicheng Dou, Yutao Zhu, Ji-Rong Wen,
- Abstract要約: 本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
- 参考スコア(独自算出の注目度): 71.84678750612754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling contextual information in a search session has drawn more and more attention when understanding complex user intents. Recent methods are all data-driven, i.e., they train different models on large-scale search log data to identify the relevance between search contexts and candidate documents. The common training paradigm is to pair the search context with different candidate documents and train the model to rank the clicked documents higher than the unclicked ones. However, this paradigm neglects the symmetric nature of the relevance between the session context and document, i.e., the clicked documents can also be paired with different search contexts when training. In this work, we propose query-oriented data augmentation to enrich search logs and empower the modeling. We generate supplemental training pairs by altering the most important part of a search context, i.e., the current query, and train our model to rank the generated sequence along with the original sequence. This approach enables models to learn that the relevance of a document may vary as the session context changes, leading to a better understanding of users' search patterns. We develop several strategies to alter the current query, resulting in new training data with varying degrees of difficulty. Through experimentation on two extensive public search logs, we have successfully demonstrated the effectiveness of our model.
- Abstract(参考訳): 検索セッションにおけるコンテキスト情報のモデリングは、複雑なユーザ意図を理解する際に、ますます注目を集めている。
最近の手法はすべてデータ駆動であり、検索コンテキストと候補文書の関連性を特定するために、大規模な検索ログデータ上で異なるモデルを訓練している。
一般的なトレーニングパラダイムは、検索コンテキストを異なる候補文書と組み合わせて、クリックされていないドキュメントよりも高いランク付けを行うようにモデルをトレーニングすることである。
しかし、このパラダイムはセッションコンテキストとドキュメントの関係性の対称性を無視している。
本研究では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
我々は、検索コンテキストの最も重要な部分、すなわち現在のクエリを変更して補足的なトレーニングペアを生成し、生成したシーケンスを元のシーケンスと共にランク付けするようにモデルを訓練する。
このアプローチにより、セッションコンテキストが変化するにつれて、ドキュメントの関連性が異なる可能性があることを学び、ユーザの検索パターンをよりよく理解することが可能になる。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
2つの大規模な公開検索ログの実験を通じて,本モデルの有効性を実証した。
関連論文リスト
- Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Learning to Relate to Previous Turns in Conversational Search [26.931718474500652]
検索効率を改善する効果的な方法は、現在のクエリを履歴クエリで拡張することである。
本稿では,現在のクエリに有用な履歴クエリを選択するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T03:00:10Z) - Automated Query Generation for Evidence Collection from Web Search
Engines [2.642698101441705]
インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
論文 参考訳(メタデータ) (2023-03-15T14:32:00Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - From Easy to Hard: A Dual Curriculum Learning Framework for
Context-Aware Document Ranking [41.8396866002968]
文脈対応文書ランキングのためのカリキュラム学習フレームワークを提案する。
我々はこのモデルをグローバルな最適化に向けて徐々に導くことを目指している。
2つの実クエリログデータセットの実験により、提案するフレームワークは、既存のいくつかのメソッドの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-08-22T12:09:12Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。