論文の概要: Towards Understanding Bias in Synthetic Data for Evaluation
- arxiv url: http://arxiv.org/abs/2506.10301v1
- Date: Thu, 12 Jun 2025 02:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.533401
- Title: Towards Understanding Bias in Synthetic Data for Evaluation
- Title(参考訳): 評価のための合成データにおけるバイアスの理解に向けて
- Authors: Hossein A. Rahmani, Varsha Ramineni, Nick Craswell, Bhaskar Mitra, Emine Yilmaz,
- Abstract要約: 大規模言語モデル(LLM)を用いた合成テストコレクションの信頼性について検討する。
まず,評価結果にそのようなバイアスがあることを実証的に示し,システム評価に与える影響を分析した。
分析の結果, 絶対的なシステム性能の計算など, 総合的なテストコレクションを用いた評価結果におけるバイアスの影響は大きいが, その効果は相対的なシステム性能の比較においてそれほど重要でない可能性が示唆された。
- 参考スコア(独自算出の注目度): 26.50462114230235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test collections are crucial for evaluating Information Retrieval (IR) systems. Creating a diverse set of user queries for these collections can be challenging, and obtaining relevance judgments, which indicate how well retrieved documents match a query, is often costly and resource-intensive. Recently, generating synthetic datasets using Large Language Models (LLMs) has gained attention in various applications. While previous work has used LLMs to generate synthetic queries or documents to improve ranking models, using LLMs to create synthetic test collections is still relatively unexplored. Previous work~\cite{rahmani2024synthetic} showed that synthetic test collections have the potential to be used for system evaluation, however, more analysis is needed to validate this claim. In this paper, we thoroughly investigate the reliability of synthetic test collections constructed using LLMs, where LLMs are used to generate synthetic queries, labels, or both. In particular, we examine the potential biases that might occur when such test collections are used for evaluation. We first empirically show the presence of such bias in evaluation results and analyse the effects it might have on system evaluation. We further validate the presence of such bias using a linear mixed-effects model. Our analysis shows that while the effect of bias present in evaluation results obtained using synthetic test collections could be significant, for e.g.~computing absolute system performance, its effect may not be as significant in comparing relative system performance. Codes and data are available at: https://github.com/rahmanidashti/BiasSyntheticData.
- Abstract(参考訳): テストコレクションは情報検索(IR)システムを評価する上で重要である。
これらのコレクションのための多様なユーザクエリの作成は困難であり、検索されたドキュメントがクエリにどのようにマッチするかを示す関連判断を取得することは、しばしばコストが高く、リソース集約である。
近年,Large Language Models (LLMs) を用いた合成データセットの生成が,様々な応用に注目されている。
以前の研究では、合成クエリや文書の生成にLLMを使用してランキングモデルを改善してきたが、合成テストコレクションの作成にはLLMを使用していた。
以前の研究〜\cite{rahmani2024synthetic} は、合成テストコレクションがシステム評価に使用される可能性があることを示したが、この主張を検証するにはさらなる分析が必要である。
本稿では, LLMを用いて構築した合成試験コレクションの信頼性について, LLMを用いて合成クエリ, ラベル, あるいはその両方を生成する手法について, 徹底的に検討する。
特に,このようなテストコレクションを評価に用いる場合の潜在的なバイアスについて検討する。
まず,評価結果にそのようなバイアスがあることを実証的に示し,システム評価に与える影響を分析した。
さらに、線形混合効果モデルを用いて、そのようなバイアスの存在を検証した。
分析の結果, 総合的なシステム性能の計算などにおいて, 総合的なテストコレクションから得られる評価結果にバイアスが存在することは有意であるが, 相対的なシステム性能を比較する上では, その効果はそれほど重要でない可能性が示唆された。
コードとデータは、https://github.com/rahmanidashti/BiasSyntheticData.comで入手できる。
関連論文リスト
- Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - SynDL: A Large-Scale Synthetic Test Collection for Passage Retrieval [30.269970599368815]
TRECディープラーニングトラック(Deep Learning Track, DL)テストコレクションを言語モデル合成ラベルによって拡張し, 研究者が大規模に検索システムをテストおよび評価できるようにする。
具体的には、このようなテストコレクションには、前年のトラックから1,900以上のテストクエリが含まれている。
システム評価を過去の人間ラベルと比較し, 人工的に作成した大規模テストコレクションがシステムランキングに高い相関性をもたらすことを確認した。
論文 参考訳(メタデータ) (2024-08-29T07:20:56Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Test Collections for Retrieval Evaluation [31.36035082257619]
テストコレクションは情報検索(IR)システムの評価において重要な役割を果たす。
本研究では,Large Language Models (LLMs) を用いて合成テストコレクションを構築することができるかどうかを検討する。
実験により,LLMを用いて,検索評価に確実に使用できる合成テストコレクションを構築することが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-05-13T14:11:09Z) - Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。