論文の概要: Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration
- arxiv url: http://arxiv.org/abs/2405.16546v2
- Date: Tue, 2 Jul 2024 12:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:59:27.462109
- Title: Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration
- Title(参考訳): Cocktail: LLM生成ドキュメント統合による総合的な情報検索ベンチマーク
- Authors: Sunhao Dai, Weihao Liu, Yuqi Zhou, Liang Pang, Rongju Ruan, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen,
- Abstract要約: LLM(Large Language Models)の普及は、インターネット上のAIGC(AIGC)の流入につながっている。
AIGCの急増が情報検索システムに与える影響は、まだ明らかな疑問である。
我々は、この混合ソースデータランドスケープでIRモデルを評価するのに適したベンチマークであるCocktailを紹介した。
- 参考スコア(独自算出の注目度): 60.535793237063885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The proliferation of Large Language Models (LLMs) has led to an influx of AI-generated content (AIGC) on the internet, transforming the corpus of Information Retrieval (IR) systems from solely human-written to a coexistence with LLM-generated content. The impact of this surge in AIGC on IR systems remains an open question, with the primary challenge being the lack of a dedicated benchmark for researchers. In this paper, we introduce Cocktail, a comprehensive benchmark tailored for evaluating IR models in this mixed-sourced data landscape of the LLM era. Cocktail consists of 16 diverse datasets with mixed human-written and LLM-generated corpora across various text retrieval tasks and domains. Additionally, to avoid the potential bias from previously included dataset information in LLMs, we also introduce an up-to-date dataset, named NQ-UTD, with queries derived from recent events. Through conducting over 1,000 experiments to assess state-of-the-art retrieval models against the benchmarked datasets in Cocktail, we uncover a clear trade-off between ranking performance and source bias in neural retrieval models, highlighting the necessity for a balanced approach in designing future IR systems. We hope Cocktail can serve as a foundational resource for IR research in the LLM era, with all data and code publicly available at \url{https://github.com/KID-22/Cocktail}.
- Abstract(参考訳): LLM(Large Language Models)の普及により、インターネット上のAIGC(AIGC)が流入し、情報検索システム(IR)のコーパスが人間のみの書き起こしからLLM生成コンテンツとの共存へと変化した。
このAIGCのIRシステムへの影響は、研究者のための専用のベンチマークが欠如していることから、未解決の問題である。
本稿では,LLM時代の混在データランドスケープにおけるIRモデル評価に適した総合ベンチマークであるCocktailを紹介する。
Cocktailは16の多様なデータセットで構成されており、さまざまなテキスト検索タスクやドメインに対して、人間の書き起こしとLLM生成コーパスが混在している。
さらに,LLMに含まれるデータセット情報から潜在的なバイアスを回避するため,最近のイベントからクエリを抽出したNQ-UTDという最新のデータセットも導入する。
Cocktailのベンチマークデータセットに対して1,000以上の最先端の検索モデルを評価する実験を行うことで、ニューラルネットワークモデルにおけるランク付け性能とソースバイアスとの明確なトレードオフを明らかにし、将来のIRシステム設計におけるバランスのとれたアプローチの必要性を強調します。
我々は,Cocktail が LLM 時代のIR 研究の基盤となることを願っている。すべてのデータとコードは \url{https://github.com/KID-22/Cocktail} で公開されている。
関連論文リスト
- Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。
以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。
合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文 参考訳(メタデータ) (2024-10-29T16:19:08Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - Neural Retrievers are Biased Towards LLM-Generated Content [35.40318940303482]
大規模言語モデル(LLM)は情報検索(IR)のパラダイムに革命をもたらした。
これらのLCM生成した文書がIRシステムにどのように影響するかは、迫りつつも未解明の疑問である。
意外なことに, ニューラルネットワークによる検索モデルでは, LLM生成文書のランクが高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2023-10-31T14:42:23Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - HAGRID: A Human-LLM Collaborative Dataset for Generative
Information-Seeking with Attribution [46.41448772928026]
本稿では,Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset(Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset)を提案する。
ブラックボックスプロプライエタリな検索エンジンに焦点を当てた最近の取り組みとは異なり、私たちはMIRACLの英語サブセットの上にデータセットを構築しました。
論文 参考訳(メタデータ) (2023-07-31T17:49:18Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。