論文の概要: Exploring the Viability of Synthetic Query Generation for Relevance
Prediction
- arxiv url: http://arxiv.org/abs/2305.11944v2
- Date: Fri, 16 Jun 2023 22:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 02:01:52.104379
- Title: Exploring the Viability of Synthetic Query Generation for Relevance
Prediction
- Title(参考訳): 関連性予測のための合成クエリ生成の可能性を探る
- Authors: Aditi Chaudhary, Karthik Raman, Krishna Srinivasan, Kazuma Hashimoto,
Mike Bendersky, Marc Najork
- Abstract要約: 本研究は,QGen のアプローチを不確実性予測に活用する方法について検討する。
既存のQGenアプローチの新たな欠点 - 関連性の異なるグレードを区別できないことなど - を特定します。
異なる関連性に関する知識を取り入れたラベル粒度のQGenモデルを提案する。
- 参考スコア(独自算出の注目度): 18.77909480819682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query-document relevance prediction is a critical problem in Information
Retrieval systems. This problem has increasingly been tackled using
(pretrained) transformer-based models which are finetuned using large
collections of labeled data. However, in specialized domains such as e-commerce
and healthcare, the viability of this approach is limited by the dearth of
large in-domain data. To address this paucity, recent methods leverage these
powerful models to generate high-quality task and domain-specific synthetic
data. Prior work has largely explored synthetic data generation or query
generation (QGen) for Question-Answering (QA) and binary (yes/no) relevance
prediction, where for instance, the QGen models are given a document, and
trained to generate a query relevant to that document. However in many
problems, we have a more fine-grained notion of relevance than a simple yes/no
label. Thus, in this work, we conduct a detailed study into how QGen approaches
can be leveraged for nuanced relevance prediction. We demonstrate that --
contrary to claims from prior works -- current QGen approaches fall short of
the more conventional cross-domain transfer-learning approaches. Via empirical
studies spanning 3 public e-commerce benchmarks, we identify new shortcomings
of existing QGen approaches -- including their inability to distinguish between
different grades of relevance. To address this, we introduce label-conditioned
QGen models which incorporates knowledge about the different relevance. While
our experiments demonstrate that these modifications help improve performance
of QGen techniques, we also find that QGen approaches struggle to capture the
full nuance of the relevance label space and as a result the generated queries
are not faithful to the desired relevance label.
- Abstract(参考訳): クエリー文書関連予測は情報検索システムにおいて重要な問題である。
この問題は、ラベル付きデータの大規模なコレクションを使用して微調整された(事前訓練された)トランスフォーマーベースモデルを用いて、ますます取り組まれている。
しかし、eコマースやヘルスケアのような専門分野においては、このアプローチの有効性は、大きなドメイン内データによって制限される。
この問題に対処するために、近年の手法はこれらの強力なモデルを利用して高品質なタスクとドメイン固有の合成データを生成する。
以前の研究では、QA(Qarguy-Answering)とバイナリ(yes/no)の関連予測のための合成データ生成やクエリ生成(QGen)を主に検討しており、例えば、QGenモデルにはドキュメントが与えられ、そのドキュメントに関連するクエリを生成するように訓練されている。
しかし、多くの問題において、単純なye/noラベルよりもよりきめ細かい関連性の概念がある。
そこで本研究では,QGen のアプローチを不適切な関連性予測に活用する方法を詳細に検討する。
これまでの作業からの主張とは対照的に、現在のQGenアプローチは、従来のクロスドメイントランスファー学習アプローチでは不十分です。
3つの公開eコマースベンチマークにまたがる実証研究を通じて、既存のqgenアプローチの新たな欠点を特定します。
これに対処するために、異なる関連性に関する知識を組み込んだラベル条件付きqgenモデルを導入する。
実験の結果,これらの変更はQGen技術の性能向上に有効であることが示されたが,QGenアプローチは関連ラベル空間の完全ニュアンスを捉えるのに苦労しており,結果として生成したクエリは望ましい関連ラベルに忠実ではないことがわかった。
関連論文リスト
- RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - It's All Relative! -- A Synthetic Query Generation Approach for
Improving Zero-Shot Relevance Prediction [19.881193965130173]
大規模言語モデル(LLM)は、最大8つのデモをプロンプトすることで、合成クエリ-ドキュメントペアを生成する能力を示す。
異なるラベルに対するクエリを同時に生成することで,この負担を軽減することを提案する。
論文 参考訳(メタデータ) (2023-11-14T06:16:49Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Event Extraction as Question Generation and Answering [72.04433206754489]
イベント抽出に関する最近の研究は、質問回答(QA)としてタスクを再編成した。
そこで我々は,QGA-EEを提案する。QGモデルにより,定型テンプレートを使わずに,リッチな文脈情報を含む質問を生成することができる。
実験の結果、QGA-EEはACE05の英語データセットで以前のシングルタスクベースのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-07-10T01:46:15Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - EQG-RACE: Examination-Type Question Generation [21.17100754955864]
本論文では, RACEから抽出したデータセットをもとに, 試験型質問生成手法 (EQG-RACE) を提案する。
EQG-RACEでは、離散的な回答情報を扱うための2つの主要な戦略と、長い文脈における推論が採用されています。
実験結果は、ベースラインよりも優れたEQG-RACEの最先端の性能を示しています。
論文 参考訳(メタデータ) (2020-12-11T03:52:17Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。