Fugu-MT 論文翻訳(概要): SynDL: A Large-Scale Synthetic Test Collection for Passage Retrieval

論文の概要: SynDL: A Large-Scale Synthetic Test Collection for Passage Retrieval

arxiv url: http://arxiv.org/abs/2408.16312v2
Date: Fri, 30 Aug 2024 11:48:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 20:52:58.71162
Title: SynDL: A Large-Scale Synthetic Test Collection for Passage Retrieval
Title（参考訳）: SynDL: パス検索のための大規模なテストコレクション
Authors: Hossein A. Rahmani, Xi Wang, Emine Yilmaz, Nick Craswell, Bhaskar Mitra, Paul Thomas,
Abstract要約: TRECディープラーニングトラック(Deep Learning Track, DL)テストコレクションを言語モデル合成ラベルによって拡張し, 研究者が大規模に検索システムをテストおよび評価できるようにする。具体的には、このようなテストコレクションには、前年のトラックから1,900以上のテストクエリが含まれている。システム評価を過去の人間ラベルと比較し, 人工的に作成した大規模テストコレクションがシステムランキングに高い相関性をもたらすことを確認した。
参考スコア（独自算出の注目度）: 30.269970599368815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale test collections play a crucial role in Information Retrieval (IR) research. However, according to the Cranfield paradigm and the research into publicly available datasets, the existing information retrieval research studies are commonly developed on small-scale datasets that rely on human assessors for relevance judgments - a time-intensive and expensive process. Recent studies have shown the strong capability of Large Language Models (LLMs) in producing reliable relevance judgments with human accuracy but at a greatly reduced cost. In this paper, to address the missing large-scale ad-hoc document retrieval dataset, we extend the TREC Deep Learning Track (DL) test collection via additional language model synthetic labels to enable researchers to test and evaluate their search systems at a large scale. Specifically, such a test collection includes more than 1,900 test queries from the previous years of tracks. We compare system evaluation with past human labels from past years and find that our synthetically created large-scale test collection can lead to highly correlated system rankings.
Abstract（参考訳）: 大規模テストコレクションは、情報検索(IR)研究において重要な役割を果たす。しかし、クランフィールドのパラダイムと、公開されているデータセットの研究によると、既存の情報検索の研究は、人間による評価に依拠する小規模のデータセット(時間集約的かつ高価なプロセス)で一般的に研究されている。近年,Large Language Models (LLMs) が人的精度で信頼性の高い妥当性判定を行う能力を示したが,コストを大幅に削減した。本稿では,大規模アドホック文書検索データセットの欠如に対処するため,TRECディープラーニングトラック(DL)テスト収集を言語モデル合成ラベルを通じて拡張し,研究者が大規模に検索システムを検証・評価できるようにする。具体的には、このようなテストコレクションには、前年のトラックから1,900以上のテストクエリが含まれている。システム評価を過去の人間ラベルと比較し, 人工的に作成した大規模テストコレクションがシステムランキングに高い相関性をもたらすことを確認した。

関連論文リスト

Towards Understanding Bias in Synthetic Data for Evaluation [26.50462114230235]
大規模言語モデル(LLM)を用いた合成テストコレクションの信頼性について検討する。まず,評価結果にそのようなバイアスがあることを実証的に示し,システム評価に与える影響を分析した。分析の結果, 絶対的なシステム性能の計算など, 総合的なテストコレクションを用いた評価結果におけるバイアスの影響は大きいが, その効果は相対的なシステム性能の比較においてそれほど重要でない可能性が示唆された。
論文参考訳（メタデータ） (2025-06-12T02:25:42Z)
Variations in Relevance Judgments and the Shelf Life of Test Collections [50.060833338921945]
ニューラル検索モデルへのパラダイムシフトは、現代のテストコレクションの特徴に影響した。ニューラル検索設定における先行研究を再現し、評価者の不一致がシステムランキングに影響を及ぼさないことを示す。我々は、新しい関係判断によって、いくつかのモデルが著しく劣化し、既にランク付け者としての人間の有効性に到達していることを観察した。
論文参考訳（メタデータ） (2025-02-28T10:46:56Z)
GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文参考訳（メタデータ） (2025-01-05T00:27:36Z)
On the Statistical Significance with Relevance Assessments of Large Language Models [2.9180406633632523]
我々は,文書の関連性をラベル付けするために大規模言語モデルを使用し,新しい検索テストコレクションを構築する。以上の結果から, LLM判定は有意差の大部分を検出できる一方で, 許容数の偽陽性を維持していることが明らかとなった。本研究は, LLM判定による統計的試験結果の評価における一歩である。
論文参考訳（メタデータ） (2024-11-20T11:19:35Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。既存の調査では、微調整フェーズの詳細な調査を見落としている。特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
Synthetic Test Collections for Retrieval Evaluation [31.36035082257619]
テストコレクションは情報検索(IR)システムの評価において重要な役割を果たす。本研究では,Large Language Models (LLMs) を用いて合成テストコレクションを構築することができるかどうかを検討する。実験により,LLMを用いて,検索評価に確実に使用できる合成テストコレクションを構築することが可能であることが示唆された。
論文参考訳（メタデータ） (2024-05-13T14:11:09Z)
System for systematic literature review using multiple AI agents: Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。関連する学術論文を検索するために使用される検索文字列を生成する。モデルはこれらの論文の要約を自律的に要約する。
論文参考訳（メタデータ） (2024-03-13T10:27:52Z)
Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文参考訳（メタデータ） (2024-03-01T17:12:53Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文参考訳（メタデータ） (2024-01-30T17:06:25Z)
CSMeD: Bridging the Dataset Gap in Automated Citation Screening for Systematic Literature Reviews [10.207938863784829]
CSMeDは9つの公開コレクションを統合したメタデータセットである。 CSMeDは自動引用スクリーニングモデルの性能を訓練し評価するための総合的なリソースとして機能する。我々はCSMeD-FTを導入した。CSMeD-FTは、全文パブリッシュスクリーニングタスクを明示的に評価するために設計された新しいデータセットである。
論文参考訳（メタデータ） (2023-11-21T09:36:11Z)
On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文参考訳（メタデータ） (2021-06-02T00:48:33Z)
Manual Evaluation Matters: Reviewing Test Protocols of Distantly Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文参考訳（メタデータ） (2021-05-20T06:55:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。