論文の概要: Automated Query Generation for Evidence Collection from Web Search
Engines
- arxiv url: http://arxiv.org/abs/2303.08652v1
- Date: Wed, 15 Mar 2023 14:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:33:18.922031
- Title: Automated Query Generation for Evidence Collection from Web Search
Engines
- Title(参考訳): Web検索エンジンからのエビデンス収集のための自動クエリ生成
- Authors: Nestor Prieto-Chavana, Julie Weeds, David Weir
- Abstract要約: インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
- 参考スコア(独自算出の注目度): 2.642698101441705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is widely accepted that so-called facts can be checked by searching for
information on the Internet. This process requires a fact-checker to formulate
a search query based on the fact and to present it to a search engine. Then,
relevant and believable passages need to be identified in the search results
before a decision is made. This process is carried out by sub-editors at many
news and media organisations on a daily basis. Here, we ask the question as to
whether it is possible to automate the first step, that of query generation.
Can we automatically formulate search queries based on factual statements which
are similar to those formulated by human experts? Here, we consider similarity
both in terms of textual similarity and with respect to relevant documents
being returned by a search engine. First, we introduce a moderate-sized
evidence collection dataset which includes 390 factual statements together with
associated human-generated search queries and search results. Then, we
investigate generating queries using a number of rule-based and automatic text
generation methods based on pre-trained large language models (LLMs). We show
that these methods have different merits and propose a hybrid approach which
has superior performance in practice.
- Abstract(参考訳): インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、検索エンジンに提示するファクトチェックが必要である。
そして、決定が下される前に、検索結果に関連し、信じがたい節を識別する必要がある。
このプロセスは、多くのニュースやメディア機関の副編集者によって毎日行われる。
ここでは,問合せ生成の最初のステップである問合せ生成の自動化が可能かどうかを問う。
人的専門家の定式化と類似した事実文に基づいて,検索クエリを自動的に定式化できるだろうか?
本稿では,テキストの類似性,および検索エンジンから返される関連文書の類似性について考察する。
まず,390件の事実文と関連する人文検索クエリと検索結果を含む中規模のエビデンス収集データセットを紹介する。
そこで本研究では,事前学習された大言語モデル(llms)に基づくルールベースおよび自動テキスト生成手法を用いて,クエリ生成について検討する。
これらの手法は異なる利点を有しており、実際に優れた性能を持つハイブリッドアプローチを提案する。
関連論文リスト
- Curriculum Sampling for Dense Retrieval with Document Expansion [46.784171961089406]
二重エンコーダは高密度検索のためのデファクトアーキテクチャとなっている。
最近の作業では、ドキュメントのクエリインフォームド表現が期待されている。
本稿では,学習時の疑似クエリにもとづくカリキュラムサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。