Fugu-MT 論文翻訳(概要): Automated Query Generation for Evidence Collection from Web Search Engines

論文の概要: Automated Query Generation for Evidence Collection from Web Search Engines

arxiv url: http://arxiv.org/abs/2303.08652v1
Date: Wed, 15 Mar 2023 14:32:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 13:33:18.922031
Title: Automated Query Generation for Evidence Collection from Web Search Engines
Title（参考訳）: Web検索エンジンからのエビデンス収集のための自動クエリ生成
Authors: Nestor Prieto-Chavana, Julie Weeds, David Weir
Abstract要約: インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
参考スコア（独自算出の注目度）: 2.642698101441705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is widely accepted that so-called facts can be checked by searching for information on the Internet. This process requires a fact-checker to formulate a search query based on the fact and to present it to a search engine. Then, relevant and believable passages need to be identified in the search results before a decision is made. This process is carried out by sub-editors at many news and media organisations on a daily basis. Here, we ask the question as to whether it is possible to automate the first step, that of query generation. Can we automatically formulate search queries based on factual statements which are similar to those formulated by human experts? Here, we consider similarity both in terms of textual similarity and with respect to relevant documents being returned by a search engine. First, we introduce a moderate-sized evidence collection dataset which includes 390 factual statements together with associated human-generated search queries and search results. Then, we investigate generating queries using a number of rule-based and automatic text generation methods based on pre-trained large language models (LLMs). We show that these methods have different merits and propose a hybrid approach which has superior performance in practice.
Abstract（参考訳）: インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。このプロセスでは、事実に基づいて検索クエリを定式化し、検索エンジンに提示するファクトチェックが必要である。そして、決定が下される前に、検索結果に関連し、信じがたい節を識別する必要がある。このプロセスは、多くのニュースやメディア機関の副編集者によって毎日行われる。ここでは,問合せ生成の最初のステップである問合せ生成の自動化が可能かどうかを問う。人的専門家の定式化と類似した事実文に基づいて,検索クエリを自動的に定式化できるだろうか? 本稿では,テキストの類似性,および検索エンジンから返される関連文書の類似性について考察する。まず,390件の事実文と関連する人文検索クエリと検索結果を含む中規模のエビデンス収集データセットを紹介する。そこで本研究では,事前学習された大言語モデル(llms)に基づくルールベースおよび自動テキスト生成手法を用いて,クエリ生成について検討する。これらの手法は異なる利点を有しており、実際に優れた性能を持つハイブリッドアプローチを提案する。

関連論文リスト

Maybe you are looking for CroQS: Cross-modal Query Suggestion for Text-to-Image Retrieval [15.757140563856675]
この研究は、コレクションの視覚的に一貫したサブセットを探索するために必要な最小限のテキスト修正を提案することに焦点を当てた、新しいタスクを導入している。提案手法の評価と開発を容易にするため,CroQSというベンチマークを試作した。画像キャプションやコンテンツ要約などの関連分野からのベースライン手法をこのタスクに適用し、基準性能スコアを提供する。
論文参考訳（メタデータ） (2024-12-18T13:24:09Z)
Aligning Query Representation with Rewritten Query and Relevance Judgments in Conversational Search [32.35446999027349]
我々は、より優れたクエリ表現モデルをトレーニングするために、リライトされたクエリと会話検索データの関連判断の両方を活用する。提案したモデル --Query Representation Alignment Conversational Retriever(QRACDR)は、8つのデータセットでテストされる。
論文参考訳（メタデータ） (2024-07-29T17:14:36Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。 BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文参考訳（メタデータ） (2024-07-04T08:08:33Z)
ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。評価ベンチマークには3,452の高品質な排他的クエリが含まれている。トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文参考訳（メタデータ） (2024-04-26T09:43:40Z)
Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文参考訳（メタデータ） (2024-04-03T10:05:47Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
ConvGQR: Generative Query Reformulation for Conversational Search [37.54018632257896]
ConvGQRは、生成事前訓練された言語モデルに基づいて会話クエリを再構成する新しいフレームワークである。本稿では,クエリ再構成と検索の両方を最適化する知識注入機構を提案する。
論文参考訳（メタデータ） (2023-05-25T01:45:06Z)
CAPSTONE: Curriculum Sampling for Dense Retrieval with Document Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文参考訳（メタデータ） (2022-12-18T15:57:46Z)
Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。 Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文参考訳（メタデータ） (2020-08-25T08:56:40Z)
Leveraging Cognitive Search Patterns to Enhance Automated Natural Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。問合せの概念表現を考慮し,これらのパターンの適用を形式化する。遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文参考訳（メタデータ） (2020-04-21T14:13:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。