論文の概要: SynQuE: Estimating Synthetic Dataset Quality Without Annotations
- arxiv url: http://arxiv.org/abs/2511.03928v1
- Date: Thu, 06 Nov 2025 00:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.245155
- Title: SynQuE: Estimating Synthetic Dataset Quality Without Annotations
- Title(参考訳): SynQuE: アノテーションなしで合成データセットの品質を推定する
- Authors: Arthur Chen, Victor Zhong,
- Abstract要約: 我々は,限定的な注釈付き実データのみを用いて,予測された実世界のタスク性能によって,合成データセットのランク付けの問題を定式化する。
実データ上でのタスクパフォーマンスを最大化するために、トレーニング用の合成データを選択するプロキシメトリクスを導入することで、この問題に対する最初の包括的なベンチマークを確立する。
以上の結果から,SynQuEプロキシは感情分析,テキスト2ナビゲーション,Webナビゲーション,画像分類など,さまざまなタスクにおける実際のタスクパフォーマンスと相関していることがわかった。
- 参考スコア(独自算出の注目度): 6.628608274494256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and formalize the Synthetic Dataset Quality Estimation (SynQuE) problem: ranking synthetic datasets by their expected real-world task performance using only limited unannotated real data. This addresses a critical and open challenge where data is scarce due to collection costs or privacy constraints. We establish the first comprehensive benchmarks for this problem by introducing and evaluating proxy metrics that choose synthetic data for training to maximize task performance on real data. We introduce the first proxy metrics for SynQuE by adapting distribution and diversity-based distance measures to our context via embedding models. To address the shortcomings of these metrics on complex planning tasks, we propose LENS, a novel proxy that leverages large language model reasoning. Our results show that SynQuE proxies correlate with real task performance across diverse tasks, including sentiment analysis, Text2SQL, web navigation, and image classification, with LENS consistently outperforming others on complex tasks by capturing nuanced characteristics. For instance, on text-to-SQL parsing, training on the top-3 synthetic datasets selected via SynQuE proxies can raise accuracy from 30.4% to 38.4 (+8.1)% on average compared to selecting data indiscriminately. This work establishes SynQuE as a practical framework for synthetic data selection under real-data scarcity and motivates future research on foundation model-based data characterization and fine-grained data selection.
- Abstract(参考訳): 本稿では,SynQuE問題(SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:S ynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE:SynQuE)について述べる。
これは、収集コストやプライバシの制約によってデータが不足する、重要かつオープンな課題に対処する。
実データ上でのタスクパフォーマンスを最大化するために、トレーニング用の合成データを選択するプロキシメトリクスを導入し、評価することで、この問題に対する最初の包括的なベンチマークを確立する。
組込みモデルを用いて分布と多様性に基づく距離測定を文脈に適応させることにより、SynQuEの最初のプロキシメトリクスを導入する。
複雑な計画課題におけるこれらの指標の欠点を解決するために,大規模言語モデル推論を利用した新しいプロキシであるLENSを提案する。
以上の結果から,SynQuEプロキシは感情分析,Text2SQL,Webナビゲーション,画像分類など多種多様なタスクにまたがる実際のタスク性能と相関することがわかった。
例えば、テキストからSQLのパースでは、SynQuEプロキシを介して選択された上位3つの合成データセットのトレーニングは、データを非差別的に選択するよりも、平均で30.4%から38.4(+8.1)まで精度を上げることができる。
この研究は、実データ不足下での合成データ選択の実践的フレームワークとしてSynQuEを確立し、基礎モデルに基づくデータキャラクタリゼーションときめ細かいデータ選択に関する将来の研究を動機付けている。
関連論文リスト
- What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution [21.806975276583174]
私たちは、挑戦的なサンプルの結合をカバーするテキストを合成する強力なデータエンジンであるUnionSTを紹介します。
次に,課題シナリオのシミュレーションを改良した大規模合成データセットUnionST-Sを構築した。
UnionST-Sでトレーニングされたモデルは、既存の合成データセットよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-02-06T07:23:54Z) - SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation [3.2150327776278576]
本稿では,オブジェクト検出タスクのデータ品質を評価するために,Synthetic dataset Quality Metric (SDQM)を提案する。
実験の結果,SDQMは,主物体検出モデルYOLOv11の平均精度 (mAP) と強い相関を示した。
データセットの品質向上のための実用的な洞察を提供し、コストのかかる反復的なトレーニングの必要性を最小限にする。
論文 参考訳(メタデータ) (2025-10-08T03:01:26Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification? [1.1041211464412568]
最近の大規模合成データセット ClonedPerson は実世界のデータセットと統計的に同じGPReIDのベンチマークに確実に使用できることを示す。
本研究では、ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証する。
論文 参考訳(メタデータ) (2022-09-12T06:54:54Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。