論文の概要: PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation
- arxiv url: http://arxiv.org/abs/2502.20377v1
- Date: Thu, 27 Feb 2025 18:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:39.158296
- Title: PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation
- Title(参考訳): PhantomWiki: 推論と検索のためのオンデマンドデータセット
- Authors: Albert Gong, Kamilė Stankevičiūtė, Chao Wan, Anmol Kabra, Raphael Thesmar, Johann Lee, Julius Klenke, Carla P. Gomes, Kilian Q. Weinberger,
- Abstract要約: PhantomWikiは、多様な問合せ対を持つドキュメントコーパスを生成するパイプラインである。
評価毎に新しいPhantomWikiインスタンスがオンデマンドで生成される。
- 参考スコア(独自算出の注目度): 35.978440778976704
- License:
- Abstract: High-quality benchmarks are essential for evaluating reasoning and retrieval capabilities of large language models (LLMs). However, curating datasets for this purpose is not a permanent solution as they are prone to data leakage and inflated performance results. To address these challenges, we propose PhantomWiki: a pipeline to generate unique, factually consistent document corpora with diverse question-answer pairs. Unlike prior work, PhantomWiki is neither a fixed dataset, nor is it based on any existing data. Instead, a new PhantomWiki instance is generated on demand for each evaluation. We vary the question difficulty and corpus size to disentangle reasoning and retrieval capabilities respectively, and find that PhantomWiki datasets are surprisingly challenging for frontier LLMs. Thus, we contribute a scalable and data leakage-resistant framework for disentangled evaluation of reasoning, retrieval, and tool-use abilities. Our code is available at https://github.com/kilian-group/phantom-wiki.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論と検索能力を評価するためには,高品質なベンチマークが不可欠である。
しかし、この目的のためにデータセットをキュレートすることは永続的な解決策ではない。
これらの課題に対処するため,我々はPhantomWikiを提案する。
これまでの作業とは異なり、PhantomWikiは固定データセットではなく、既存のデータに基づいたものでもない。
代わりに、評価毎に新しいPhantomWikiインスタンスがオンデマンドで生成される。
質問の難易度とコーパスサイズは,それぞれ,推論と検索能力の両面で異なっており,PhantomWikiデータセットは,フロンティアのLLMにおいて驚くほど困難であることがわかった。
そこで本稿では,推論,検索,ツール利用能力の分散評価のための,スケーラブルでデータリークに耐性のあるフレームワークを提案する。
私たちのコードはhttps://github.com/kilian-group/phantom-wikiで公開されています。
関連論文リスト
- HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits [92.62157408704594]
HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
論文 参考訳(メタデータ) (2024-06-05T16:25:57Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - WIKITIDE: A Wikipedia-Based Timestamped Definition Pairs Dataset [12.707584479922833]
ウィキタイデはウィキペディアから抽出したタイムスタンプ定義のペアから抽出したデータセットである。
我々の結果は、WikiTiDeのシードバージョンをブートストラップすると、より微調整されたモデルが得られることを示唆している。
論文 参考訳(メタデータ) (2023-08-07T13:38:54Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z) - Disfl-QA: A Benchmark Dataset for Understanding Disfluencies in Question
Answering [21.857273918785452]
Disfl-QAは、データセットに対する新たな課題である。
Disfl-QAには、テキストのより包括的な理解を必要とする様々な難題が含まれている。
また,データ拡張手法により性能の低下を部分的に回復し,さらに細調整に金のデータを用いることの有効性を示した。
論文 参考訳(メタデータ) (2021-06-08T00:03:40Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。