論文の概要: QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set
Operations
- arxiv url: http://arxiv.org/abs/2305.11694v2
- Date: Wed, 31 May 2023 05:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:23:41.864839
- Title: QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set
Operations
- Title(参考訳): quest: 暗黙のセット操作によるエンティティ参照クエリの検索データセット
- Authors: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina
Toutanova
- Abstract要約: QUESTは、暗黙のセット操作を備えた3357の自然言語クエリのデータセットである。
データセットは、クエリで言及された複数の制約と、ドキュメントの対応するエビデンスにマッチするようにモデルに挑戦する。
我々は,現代の検索システムを分析し,それらがこのようなクエリに苦しむ場合が多いことを発見した。
- 参考スコア(独自算出の注目度): 36.70770411188946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formulating selective information needs results in queries that implicitly
specify set operations, such as intersection, union, and difference. For
instance, one might search for "shorebirds that are not sandpipers" or
"science-fiction films shot in England". To study the ability of retrieval
systems to meet such information needs, we construct QUEST, a dataset of 3357
natural language queries with implicit set operations, that map to a set of
entities corresponding to Wikipedia documents. The dataset challenges models to
match multiple constraints mentioned in queries with corresponding evidence in
documents and correctly perform various set operations. The dataset is
constructed semi-automatically using Wikipedia category names. Queries are
automatically composed from individual categories, then paraphrased and further
validated for naturalness and fluency by crowdworkers. Crowdworkers also assess
the relevance of entities based on their documents and highlight attribution of
query constraints to spans of document text. We analyze several modern
retrieval systems, finding that they often struggle on such queries. Queries
involving negation and conjunction are particularly challenging and systems are
further challenged with combinations of these operations.
- Abstract(参考訳): 選択的な情報の定式化は、整合性、和合性、差分などの集合演算を暗黙的に指定するクエリの結果を必要とする。
例えば、"shorebirds that not sandpiper"や"science-fiction films shot in england"を探すことができる。
このような情報ニーズを満たす検索システムの能力を検討するために,wikipedia文書に対応するエンティティ群にマップする,暗黙のセット操作を伴う3357の自然言語クエリのデータセットquestを構築した。
データセットは、クエリで言及される複数の制約とドキュメント内の対応する証拠を一致させ、さまざまなセット操作を正しく実行するモデルに挑戦する。
データセットはWikipediaのカテゴリ名を使って半自動で構築される。
クエリは、個々のカテゴリから自動的に構成され、次にパラフレーズされ、クラウドワーカーによる自然さとフルエンシーについてさらに検証される。
クラウドワーカーはまた、ドキュメントに基づいてエンティティの関連性を評価し、ドキュメントテキストのスパンに対するクエリ制約の属性を強調する。
我々は,現代の検索システムを分析し,そのようなクエリに苦しむことが多いことを発見した。
否定と結合に関するクエリは特に困難であり、システムはこれらの操作の組み合わせでさらに挑戦される。
関連論文リスト
- RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。
従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。
入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:13:06Z) - Aligning Query Representation with Rewritten Query and Relevance Judgments in Conversational Search [32.35446999027349]
我々は、より優れたクエリ表現モデルをトレーニングするために、リライトされたクエリと会話検索データの関連判断の両方を活用する。
提案したモデル --Query Representation Alignment Conversational Retriever(QRACDR)は、8つのデータセットでテストされる。
論文 参考訳(メタデータ) (2024-07-29T17:14:36Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Automated Query Generation for Evidence Collection from Web Search
Engines [2.642698101441705]
インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
論文 参考訳(メタデータ) (2023-03-15T14:32:00Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - Parallel Instance Query Network for Named Entity Recognition [73.30174490672647]
名前付きエンティティ認識(NER)は自然言語処理の基本課題である。
最近の研究は、名前付きエンティティ認識を読み取り理解タスクとして扱い、エンティティを抽出するためにタイプ固有のクエリを手動で構築している。
本稿では,グローバルかつ学習可能なインスタンスクエリを並列に抽出するParallel Instance Query Network (PIQN)を提案する。
論文 参考訳(メタデータ) (2022-03-20T13:01:25Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文 参考訳(メタデータ) (2021-03-24T01:02:12Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。