論文の概要: Automated Query Generation for Evidence Collection from Web Search
Engines
- arxiv url: http://arxiv.org/abs/2303.08652v1
- Date: Wed, 15 Mar 2023 14:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:33:18.922031
- Title: Automated Query Generation for Evidence Collection from Web Search
Engines
- Title(参考訳): Web検索エンジンからのエビデンス収集のための自動クエリ生成
- Authors: Nestor Prieto-Chavana, Julie Weeds, David Weir
- Abstract要約: インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
- 参考スコア(独自算出の注目度): 2.642698101441705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is widely accepted that so-called facts can be checked by searching for
information on the Internet. This process requires a fact-checker to formulate
a search query based on the fact and to present it to a search engine. Then,
relevant and believable passages need to be identified in the search results
before a decision is made. This process is carried out by sub-editors at many
news and media organisations on a daily basis. Here, we ask the question as to
whether it is possible to automate the first step, that of query generation.
Can we automatically formulate search queries based on factual statements which
are similar to those formulated by human experts? Here, we consider similarity
both in terms of textual similarity and with respect to relevant documents
being returned by a search engine. First, we introduce a moderate-sized
evidence collection dataset which includes 390 factual statements together with
associated human-generated search queries and search results. Then, we
investigate generating queries using a number of rule-based and automatic text
generation methods based on pre-trained large language models (LLMs). We show
that these methods have different merits and propose a hybrid approach which
has superior performance in practice.
- Abstract(参考訳): インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、検索エンジンに提示するファクトチェックが必要である。
そして、決定が下される前に、検索結果に関連し、信じがたい節を識別する必要がある。
このプロセスは、多くのニュースやメディア機関の副編集者によって毎日行われる。
ここでは,問合せ生成の最初のステップである問合せ生成の自動化が可能かどうかを問う。
人的専門家の定式化と類似した事実文に基づいて,検索クエリを自動的に定式化できるだろうか?
本稿では,テキストの類似性,および検索エンジンから返される関連文書の類似性について考察する。
まず,390件の事実文と関連する人文検索クエリと検索結果を含む中規模のエビデンス収集データセットを紹介する。
そこで本研究では,事前学習された大言語モデル(llms)に基づくルールベースおよび自動テキスト生成手法を用いて,クエリ生成について検討する。
これらの手法は異なる利点を有しており、実際に優れた性能を持つハイブリッドアプローチを提案する。
関連論文リスト
- Aligning Query Representation with Rewritten Query and Relevance Judgments in Conversational Search [32.35446999027349]
我々は、より優れたクエリ表現モデルをトレーニングするために、リライトされたクエリと会話検索データの関連判断の両方を活用する。
提案したモデル --Query Representation Alignment Conversational Retriever(QRACDR)は、8つのデータセットでテストされる。
論文 参考訳(メタデータ) (2024-07-29T17:14:36Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - ConvGQR: Generative Query Reformulation for Conversational Search [37.54018632257896]
ConvGQRは、生成事前訓練された言語モデルに基づいて会話クエリを再構成する新しいフレームワークである。
本稿では,クエリ再構成と検索の両方を最適化する知識注入機構を提案する。
論文 参考訳(メタデータ) (2023-05-25T01:45:06Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。