論文の概要: CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example
- arxiv url: http://arxiv.org/abs/2103.12906v1
- Date: Wed, 24 Mar 2021 01:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 13:53:51.882388
- Title: CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example
- Title(参考訳): csfcube - ファセットクエリのためのコンピュータサイエンス研究論文のサンプルによるテストコレクション
- Authors: Sheshera Mysore, Tim O'Gorman, Andrew McCallum, Hamed Zamani
- Abstract要約: 例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
- 参考スコア(独自算出の注目度): 43.01717754418893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Query by Example is a well-known information retrieval task in which a
document is chosen by the user as the search query and the goal is to retrieve
relevant documents from a large collection. However, a document often covers
multiple aspects of a topic. To address this scenario we introduce the task of
faceted Query by Example in which users can also specify a finer grained aspect
in addition to the input query document. We focus on the application of this
task in scientific literature search. We envision models which are able to
retrieve scientific papers analogous to a query scientific paper along
specifically chosen rhetorical structure elements as one solution to this
problem. In this work, the rhetorical structure elements, which we refer to as
facets, indicate "background", "method", or "result" aspects of a scientific
paper. We introduce and describe an expert annotated test collection to
evaluate models trained to perform this task. Our test collection consists of a
diverse set of 50 query documents, drawn from computational linguistics and
machine learning venues. We carefully followed the annotation guideline used by
TREC for depth-k pooling (k = 100 or 250) and the resulting data collection
consists of graded relevance scores with high annotation agreement. The data is
freely available for research purposes.
- Abstract(参考訳): Query by Exampleは、ユーザが検索クエリとしてドキュメントを選択し、大きなコレクションから関連ドキュメントを検索する、よく知られた情報検索タスクである。
しかしながら、文書はトピックの複数の側面をカバーすることが多い。
このシナリオに対処するために、ユーザが入力クエリドキュメントに加えて、よりきめ細かいアスペクトを指定できる、例による顔付きクエリのタスクを導入します。
我々は,この課題を科学文献検索に応用することに注力する。
本稿では,この問題の解法として,クエリ科学論文に類似した科学的論文を,特に選択された修辞構造要素とともに検索できるモデルを提案する。
この研究において、私たちがファセット(facets)と呼ぶ修辞構造要素は、科学論文の「背景」(background)、「メソッド」(method)、または「再帰」(result)の側面を示す。
我々は、このタスクを実行するために訓練されたモデルを評価するために、エキスパートアノテートテストコレクションを導入し、記述する。
我々のテストコレクションは、計算言語学と機械学習の会場から抽出された50のクエリドキュメントからなる。
TRECが深度kプーリングに用いたアノテーションガイドライン(k = 100 または 250)を慎重に追従し,得られたデータ収集は,高いアノテーションの一致による評価値から成っている。
そのデータは研究目的で自由に利用できる。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set
Operations [36.70770411188946]
QUESTは、暗黙のセット操作を備えた3357の自然言語クエリのデータセットである。
データセットは、クエリで言及された複数の制約と、ドキュメントの対応するエビデンスにマッチするようにモデルに挑戦する。
我々は,現代の検索システムを分析し,それらがこのようなクエリに苦しむ場合が多いことを発見した。
論文 参考訳(メタデータ) (2023-05-19T14:19:32Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Cross-document Event Coreference Search: Task, Dataset and Modeling [26.36068336169796]
我々は、タスクのために、魅力的な、より適用可能な補完的な設定 - クロスドキュメントの参照検索を提案する。
このタスクの研究を支援するために、Wikipediaから派生した対応するデータセットを作成します。
本稿では,強力なコア参照スコアリング方式をDPRアーキテクチャに統合し,性能を向上する新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-10-23T08:21:25Z) - One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text [12.98328149016239]
ターゲット文書中のスニペットを見つけるために,単発スニペットタスクとしてMONOMERを提案する。
我々は、MONOMERが1ショットテンプレート-LMからいくつかのベースラインより優れていることを示す実験を行う。
私たちはmonomerをトレーニングします。
視覚的に類似したクエリ検出データを持つ生成データ。
論文 参考訳(メタデータ) (2022-09-12T19:26:32Z) - Aspect-Oriented Summarization through Query-Focused Extraction [23.62412515574206]
実際のユーザのニーズは、特定のクエリではなく、ユーザが興味を持っているデータセットの幅広いトピックという側面に、より深く浸透することが多い。
抽出クエリに焦点を絞った学習手法をベンチマークし、モデルを訓練するための対照的な拡張手法を提案する。
我々は2つのアスペクト指向データセットを評価し、この手法が一般的な要約システムよりも焦点を絞った要約を得られることを発見した。
論文 参考訳(メタデータ) (2021-10-15T18:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。