論文の概要: QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set
Operations
- arxiv url: http://arxiv.org/abs/2305.11694v2
- Date: Wed, 31 May 2023 05:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:23:41.864839
- Title: QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set
Operations
- Title(参考訳): quest: 暗黙のセット操作によるエンティティ参照クエリの検索データセット
- Authors: Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina
Toutanova
- Abstract要約: QUESTは、暗黙のセット操作を備えた3357の自然言語クエリのデータセットである。
データセットは、クエリで言及された複数の制約と、ドキュメントの対応するエビデンスにマッチするようにモデルに挑戦する。
我々は,現代の検索システムを分析し,それらがこのようなクエリに苦しむ場合が多いことを発見した。
- 参考スコア(独自算出の注目度): 36.70770411188946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formulating selective information needs results in queries that implicitly
specify set operations, such as intersection, union, and difference. For
instance, one might search for "shorebirds that are not sandpipers" or
"science-fiction films shot in England". To study the ability of retrieval
systems to meet such information needs, we construct QUEST, a dataset of 3357
natural language queries with implicit set operations, that map to a set of
entities corresponding to Wikipedia documents. The dataset challenges models to
match multiple constraints mentioned in queries with corresponding evidence in
documents and correctly perform various set operations. The dataset is
constructed semi-automatically using Wikipedia category names. Queries are
automatically composed from individual categories, then paraphrased and further
validated for naturalness and fluency by crowdworkers. Crowdworkers also assess
the relevance of entities based on their documents and highlight attribution of
query constraints to spans of document text. We analyze several modern
retrieval systems, finding that they often struggle on such queries. Queries
involving negation and conjunction are particularly challenging and systems are
further challenged with combinations of these operations.
- Abstract(参考訳): 選択的な情報の定式化は、整合性、和合性、差分などの集合演算を暗黙的に指定するクエリの結果を必要とする。
例えば、"shorebirds that not sandpiper"や"science-fiction films shot in england"を探すことができる。
このような情報ニーズを満たす検索システムの能力を検討するために,wikipedia文書に対応するエンティティ群にマップする,暗黙のセット操作を伴う3357の自然言語クエリのデータセットquestを構築した。
データセットは、クエリで言及される複数の制約とドキュメント内の対応する証拠を一致させ、さまざまなセット操作を正しく実行するモデルに挑戦する。
データセットはWikipediaのカテゴリ名を使って半自動で構築される。
クエリは、個々のカテゴリから自動的に構成され、次にパラフレーズされ、クラウドワーカーによる自然さとフルエンシーについてさらに検証される。
クラウドワーカーはまた、ドキュメントに基づいてエンティティの関連性を評価し、ドキュメントテキストのスパンに対するクエリ制約の属性を強調する。
我々は,現代の検索システムを分析し,そのようなクエリに苦しむことが多いことを発見した。
否定と結合に関するクエリは特に困難であり、システムはこれらの操作の組み合わせでさらに挑戦される。
関連論文リスト
- PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Automated Query Generation for Evidence Collection from Web Search
Engines [2.642698101441705]
インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
論文 参考訳(メタデータ) (2023-03-15T14:32:00Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - Parallel Instance Query Network for Named Entity Recognition [73.30174490672647]
名前付きエンティティ認識(NER)は自然言語処理の基本課題である。
最近の研究は、名前付きエンティティ認識を読み取り理解タスクとして扱い、エンティティを抽出するためにタイプ固有のクエリを手動で構築している。
本稿では,グローバルかつ学習可能なインスタンスクエリを並列に抽出するParallel Instance Query Network (PIQN)を提案する。
論文 参考訳(メタデータ) (2022-03-20T13:01:25Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文 参考訳(メタデータ) (2021-03-24T01:02:12Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - Message Passing Query Embedding [4.035753155957698]
本稿では,クエリのグラフ表現を符号化するグラフニューラルネットワークを提案する。
モデルは、明示的な監督なしにエンティティタイプの概念を捉えたエンティティ埋め込みを学習することを示します。
論文 参考訳(メタデータ) (2020-02-06T17:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。