論文の概要: The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data
- arxiv url: http://arxiv.org/abs/2601.17717v1
- Date: Sun, 25 Jan 2026 06:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.229074
- Title: The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data
- Title(参考訳): LLMデータ監査者:合成データの評価における品質と信頼性に関する計量的調査
- Authors: Kaituo Zhang, Mingzhi Hu, Hoang Anh Duy Le, Fariha Kabir Torsha, Zhimeng Jiang, Minh Khai Bui, Chia-Yuan Chang, Yu-Neng Chuang, Zhen Xiong, Ying Lin, Guanchu Wang, Na Zou,
- Abstract要約: 大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。
本稿では,2次元から合成データを評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.926467401802046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as powerful tools for generating data across various modalities. By transforming data from a scarce resource into a controllable asset, LLMs mitigate the bottlenecks imposed by the acquisition costs of real-world data for model training, evaluation, and system iteration. However, ensuring the high quality of LLM-generated synthetic data remains a critical challenge. Existing research primarily focuses on generation methodologies, with limited direct attention to the quality of the resulting data. Furthermore, most studies are restricted to single modalities, lacking a unified perspective across different data types. To bridge this gap, we propose the \textbf{LLM Data Auditor framework}. In this framework, we first describe how LLMs are utilized to generate data across six distinct modalities. More importantly, we systematically categorize intrinsic metrics for evaluating synthetic data from two dimensions: quality and trustworthiness. This approach shifts the focus from extrinsic evaluation, which relies on downstream task performance, to the inherent properties of the data itself. Using this evaluation system, we analyze the experimental evaluations of representative generation methods for each modality and identify substantial deficiencies in current evaluation practices. Based on these findings, we offer concrete recommendations for the community to improve the evaluation of data generation. Finally, the framework outlines methodologies for the practical application of synthetic data across different modalities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。
希少なリソースからコントロール可能な資産にデータを変換することにより、LLMはモデルトレーニング、評価、システムイテレーションのための実世界のデータ取得コストによって課されるボトルネックを軽減する。
しかし,LLM合成データの高品質化は依然として重要な課題である。
既存の研究は主に生成方法論に焦点を当てており、結果のデータの品質に直接注意を払っている。
さらに、ほとんどの研究は単一のモダリティに制限されており、異なるデータタイプをまたいだ統一された視点が欠如している。
このギャップを埋めるため、我々はtextbf{LLM Data Auditor frameworkを提案する。
このフレームワークでは、まず、LLMが6つの異なるモダリティにまたがるデータ生成にどのように利用されるかを説明する。
さらに重要なことは,2次元から合成データを評価するために,本質的な指標を体系的に分類することである。
このアプローチは、ダウンストリームタスクのパフォーマンスに依存する外部評価から、データ自体固有の特性へと焦点を移す。
この評価システムを用いて、各モードに対する代表生成手法の実験的な評価を分析し、現在の評価実践における実質的な欠陥を同定する。
これらの知見に基づき、データ生成の評価を改善するための具体的な勧告をコミュニティに提示する。
最後に、このフレームワークは、様々なモダリティにまたがる合成データの実践的応用のための方法論を概説する。
関連論文リスト
- Synthetic Dataset Evaluation Based on Generalized Cross Validation [6.672552664633057]
合成データセットの現在の評価研究は限定的であり、普遍的に受け入れられる標準フレームワークが欠如している。
本稿では、一般化されたクロスバリデーション実験とドメイン転送学習の原則を統合する新しい評価フレームワークを提案する。
合成データと実世界のデータセットの類似性を定量化することによりシミュレーション品質を測定し、合成データの多様性とカバレッジを評価して転送品質を評価する。
論文 参考訳(メタデータ) (2025-09-14T13:57:33Z) - Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability [41.23032741638842]
本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。
我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
論文 参考訳(メタデータ) (2025-06-02T15:31:52Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Evaluation of Synthetic Datasets for Conversational Recommender Systems [0.0]
堅牢な評価フレームワークがないことは長年の問題だった。
ダウンストリームアプリケーションでは,トレーニングデータの質が重要なので,その質を評価する指標を開発することが重要である。
本稿では,生成モデルが生成したデータセットを評価するために,多面的アプローチを採用するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T18:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。