論文の概要: SynQuE: Estimating Synthetic Dataset Quality Without Annotations
- arxiv url: http://arxiv.org/abs/2511.03928v1
- Date: Thu, 06 Nov 2025 00:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.245155
- Title: SynQuE: Estimating Synthetic Dataset Quality Without Annotations
- Title(参考訳): SynQuE: アノテーションなしで合成データセットの品質を推定する
- Authors: Arthur Chen, Victor Zhong,
- Abstract要約: 我々は,限定的な注釈付き実データのみを用いて,予測された実世界のタスク性能によって,合成データセットのランク付けの問題を定式化する。
実データ上でのタスクパフォーマンスを最大化するために、トレーニング用の合成データを選択するプロキシメトリクスを導入することで、この問題に対する最初の包括的なベンチマークを確立する。
以上の結果から,SynQuEプロキシは感情分析,テキスト2ナビゲーション,Webナビゲーション,画像分類など,さまざまなタスクにおける実際のタスクパフォーマンスと相関していることがわかった。
- 参考スコア(独自算出の注目度): 6.628608274494256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and formalize the Synthetic Dataset Quality Estimation (SynQuE) problem: ranking synthetic datasets by their expected real-world task performance using only limited unannotated real data. This addresses a critical and open challenge where data is scarce due to collection costs or privacy constraints. We establish the first comprehensive benchmarks for this problem by introducing and evaluating proxy metrics that choose synthetic data for training to maximize task performance on real data. We introduce the first proxy metrics for SynQuE by adapting distribution and diversity-based distance measures to our context via embedding models. To address the shortcomings of these metrics on complex planning tasks, we propose LENS, a novel proxy that leverages large language model reasoning. Our results show that SynQuE proxies correlate with real task performance across diverse tasks, including sentiment analysis, Text2SQL, web navigation, and image classification, with LENS consistently outperforming others on complex tasks by capturing nuanced characteristics. For instance, on text-to-SQL parsing, training on the top-3 synthetic datasets selected via SynQuE proxies can raise accuracy from 30.4% to 38.4 (+8.1)% on average compared to selecting data indiscriminately. This work establishes SynQuE as a practical framework for synthetic data selection under real-data scarcity and motivates future research on foundation model-based data characterization and fine-grained data selection.
- Abstract(参考訳): 本稿では,SynQuE問題(SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:S ynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE)について述べる。
これは、収集コストやプライバシの制約によってデータが不足する、重要かつオープンな課題に対処する。
実データ上でのタスクパフォーマンスを最大化するために、トレーニング用の合成データを選択するプロキシメトリクスを導入し、評価することで、この問題に対する最初の包括的なベンチマークを確立する。
組込みモデルを用いて分布と多様性に基づく距離測定を文脈に適応させることにより、SynQuEの最初のプロキシメトリクスを導入する。
複雑な計画課題におけるこれらの指標の欠点を解決するために,大規模言語モデル推論を利用した新しいプロキシであるLENSを提案する。
以上の結果から,SynQuEプロキシは感情分析,Text2SQL,Webナビゲーション,画像分類など多種多様なタスクにまたがる実際のタスク性能と相関することがわかった。
例えば、テキストからSQLのパースでは、SynQuEプロキシを介して選択された上位3つの合成データセットのトレーニングは、データを非差別的に選択するよりも、平均で30.4%から38.4(+8.1)まで精度を上げることができる。
この研究は、実データ不足下での合成データ選択の実践的フレームワークとしてSynQuEを確立し、基礎モデルに基づくデータキャラクタリゼーションときめ細かいデータ選択に関する将来の研究を動機付けている。
関連論文リスト
- SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation [3.2150327776278576]
本稿では,オブジェクト検出タスクのデータ品質を評価するために,Synthetic dataset Quality Metric (SDQM)を提案する。
実験の結果,SDQMは,主物体検出モデルYOLOv11の平均精度 (mAP) と強い相関を示した。
データセットの品質向上のための実用的な洞察を提供し、コストのかかる反復的なトレーニングの必要性を最小限にする。
論文 参考訳(メタデータ) (2025-10-08T03:01:26Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification? [1.1041211464412568]
最近の大規模合成データセット ClonedPerson は実世界のデータセットと統計的に同じGPReIDのベンチマークに確実に使用できることを示す。
本研究では、ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証する。
論文 参考訳(メタデータ) (2022-09-12T06:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。