論文の概要: SynDL: A Large-Scale Synthetic Test Collection for Passage Retrieval
- arxiv url: http://arxiv.org/abs/2408.16312v2
- Date: Fri, 30 Aug 2024 11:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 16:53:46.586334
- Title: SynDL: A Large-Scale Synthetic Test Collection for Passage Retrieval
- Title(参考訳): SynDL: パス検索のための大規模なテストコレクション
- Authors: Hossein A. Rahmani, Xi Wang, Emine Yilmaz, Nick Craswell, Bhaskar Mitra, Paul Thomas,
- Abstract要約: TRECディープラーニングトラック(Deep Learning Track, DL)テストコレクションを言語モデル合成ラベルによって拡張し, 研究者が大規模に検索システムをテストおよび評価できるようにする。
具体的には、このようなテストコレクションには、前年のトラックから1,900以上のテストクエリが含まれている。
システム評価を過去の人間ラベルと比較し, 人工的に作成した大規模テストコレクションがシステムランキングに高い相関性をもたらすことを確認した。
- 参考スコア(独自算出の注目度): 30.269970599368815
- License:
- Abstract: Large-scale test collections play a crucial role in Information Retrieval (IR) research. However, according to the Cranfield paradigm and the research into publicly available datasets, the existing information retrieval research studies are commonly developed on small-scale datasets that rely on human assessors for relevance judgments - a time-intensive and expensive process. Recent studies have shown the strong capability of Large Language Models (LLMs) in producing reliable relevance judgments with human accuracy but at a greatly reduced cost. In this paper, to address the missing large-scale ad-hoc document retrieval dataset, we extend the TREC Deep Learning Track (DL) test collection via additional language model synthetic labels to enable researchers to test and evaluate their search systems at a large scale. Specifically, such a test collection includes more than 1,900 test queries from the previous years of tracks. We compare system evaluation with past human labels from past years and find that our synthetically created large-scale test collection can lead to highly correlated system rankings.
- Abstract(参考訳): 大規模テストコレクションは、情報検索(IR)研究において重要な役割を果たす。
しかし、クランフィールドのパラダイムと、公開されているデータセットの研究によると、既存の情報検索の研究は、人間による評価に依拠する小規模のデータセット(時間集約的かつ高価なプロセス)で一般的に研究されている。
近年,Large Language Models (LLMs) が人的精度で信頼性の高い妥当性判定を行う能力を示したが,コストを大幅に削減した。
本稿では,大規模アドホック文書検索データセットの欠如に対処するため,TRECディープラーニングトラック(DL)テスト収集を言語モデル合成ラベルを通じて拡張し,研究者が大規模に検索システムを検証・評価できるようにする。
具体的には、このようなテストコレクションには、前年のトラックから1,900以上のテストクエリが含まれている。
システム評価を過去の人間ラベルと比較し, 人工的に作成した大規模テストコレクションがシステムランキングに高い相関性をもたらすことを確認した。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models [0.0]
自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。
高品質なデータセットは、現実的なシナリオでモデルをトレーニングするために使用されます。
標準化されたメトリクスは、異なるODQAシステム間の比較を容易にする。
論文 参考訳(メタデータ) (2024-06-19T05:43:02Z) - Synthetic Test Collections for Retrieval Evaluation [31.36035082257619]
テストコレクションは情報検索(IR)システムの評価において重要な役割を果たす。
本研究では,Large Language Models (LLMs) を用いて合成テストコレクションを構築することができるかどうかを検討する。
実験により,LLMを用いて,検索評価に確実に使用できる合成テストコレクションを構築することが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-05-13T14:11:09Z) - System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。
複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文 参考訳(メタデータ) (2024-01-30T17:06:25Z) - CSMeD: Bridging the Dataset Gap in Automated Citation Screening for
Systematic Literature Reviews [10.207938863784829]
CSMeDは9つの公開コレクションを統合したメタデータセットである。
CSMeDは自動引用スクリーニングモデルの性能を訓練し評価するための総合的なリソースとして機能する。
我々はCSMeD-FTを導入した。CSMeD-FTは、全文パブリッシュスクリーニングタスクを明示的に評価するために設計された新しいデータセットである。
論文 参考訳(メタデータ) (2023-11-21T09:36:11Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。