論文の概要: Better Datasets Start From RefineLab: Automatic Optimization for High-Quality Dataset Refinement
- arxiv url: http://arxiv.org/abs/2511.06530v1
- Date: Sun, 09 Nov 2025 20:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.99281
- Title: Better Datasets Start From RefineLab: Automatic Optimization for High-Quality Dataset Refinement
- Title(参考訳): RefineLabから始まるより良いデータセット - 高品質なデータセットリファインメントの自動最適化
- Authors: Xiaonan Luo, Yue Huang, Ping He, Xiangliang Zhang,
- Abstract要約: RefineLabは、生のQA(QA)データを制御可能なトークン予算制約の下で高品質なデータセットに自動的に洗練するフレームワークである。
リソース制限を尊重しながらQAサンプルの品質を改善するという制約付き最適化問題に対処する。
実験によると、RefineLabは、カバレッジ、アライメントの難しさ、事実の忠実さ、イントラクタの品質など、専門家データセットからのばらつきを一貫して制限している。
- 参考スコア(独自算出の注目度): 39.059969362018286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality Question-Answer (QA) datasets are foundational for reliable Large Language Model (LLM) evaluation, yet even expert-crafted datasets exhibit persistent gaps in domain coverage, misaligned difficulty distributions, and factual inconsistencies. The recent surge in generative model-powered datasets has compounded these quality challenges. In this work, we introduce RefineLab, the first LLM-driven framework that automatically refines raw QA textual data into high-quality datasets under a controllable token-budget constraint. RefineLab takes a set of target quality attributes (such as coverage and difficulty balance) as refinement objectives, and performs selective edits within a predefined token budget to ensure practicality and efficiency. In essence, RefineLab addresses a constrained optimization problem: improving the quality of QA samples as much as possible while respecting resource limitations. With a set of available refinement operations (e.g., rephrasing, distractor replacement), RefineLab takes as input the original dataset, a specified set of target quality dimensions, and a token budget, and determines which refinement operations should be applied to each QA sample. This process is guided by an assignment module that selects optimal refinement strategies to maximize overall dataset quality while adhering to the budget constraint. Experiments demonstrate that RefineLab consistently narrows divergence from expert datasets across coverage, difficulty alignment, factual fidelity, and distractor quality. RefineLab pioneers a scalable, customizable path to reproducible dataset design, with broad implications for LLM evaluation.
- Abstract(参考訳): 高品質質問応答(QA)データセットは、信頼性の高い大言語モデル(LLM)評価の基礎となるが、専門家が作成したデータセットでさえ、ドメインカバレッジ、不一致の難易度分布、現実的な矛盾を持続的に示す。
最近の生成モデル駆動データセットの急増は、これらの品質上の課題を複雑にしている。
本研究では,LLMによる最初のフレームワークであるRefineLabを紹介する。このフレームワークは生のQAテキストデータを,制御可能なトークン予算制約の下で高品質なデータセットに自動的に洗練する。
RefineLabは、対象とする品質特性(カバレッジや難易度バランスなど)を改善目標として、事前に定義されたトークン予算内で選択的な編集を行い、実用性と効率性を保証する。
本質的にRefineLabは、リソース制限を尊重しながらQAサンプルの品質を可能な限り向上する、制約付き最適化問題に対処する。
RefineLabは利用可能なリファインメント操作(例えば、リフレージング、イントラクタ置換)のセットを使用して、元のデータセット、指定されたターゲット品質ディメンションのセット、トークン予算を入力し、各QAサンプルにどのリファインメント操作を適用するかを決定する。
このプロセスは、予算制約に固執しながら、データセットの全体的な品質を最大化する最適な改善戦略を選択する代入モジュールによってガイドされる。
実験によると、RefineLabは、カバレッジ、アライメントの難しさ、事実の忠実さ、イントラクタの品質など、専門家データセットからのばらつきを一貫して制限している。
RefineLabは、再現可能なデータセット設計のためのスケーラブルでカスタマイズ可能なパスのパイオニアだ。
関連論文リスト
- Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability [41.23032741638842]
本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。
我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
論文 参考訳(メタデータ) (2025-06-02T15:31:52Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Enhancing Machine Learning Performance through Intelligent Data Quality Assessment: An Unsupervised Data-centric Framework [0.0]
不適切なデータ品質は機械学習(ML)の有利なパワーを制限する
本稿では,高品質なデータを特定し,MLシステムの性能を向上させるインテリジェントなデータ中心評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:01:36Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文 参考訳(メタデータ) (2023-12-12T03:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。