論文の概要: Illuminating Patterns of Divergence: DataDios SmartDiff for Large-Scale Data Difference Analysis
- arxiv url: http://arxiv.org/abs/2509.00293v1
- Date: Sat, 30 Aug 2025 01:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.164909
- Title: Illuminating Patterns of Divergence: DataDios SmartDiff for Large-Scale Data Difference Analysis
- Title(参考訳): 分散パターンのイルミネーション:大規模データ差分解析のためのDataDios SmartDiff
- Authors: Aryan Poduri, Yashwant Tailor,
- Abstract要約: SmartDiffはスキーマ対応マッピング、タイプ固有のコンパレータ、並列実行を組み合わせた統合システムである。
数百万行のデータセット上では、SmartDiffは95%以上のリコールを達成し、30~50%高速に動作し、ベースラインよりも30~50%少ないメモリを使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data engineering workflows require reliable differencing across files, databases, and query outputs, yet existing tools falter under schema drift, heterogeneous types, and limited explainability. SmartDiff is a unified system that combines schema-aware mapping, type-specific comparators, and parallel execution. It aligns evolving schemas, compares structured and semi-structured data (strings, numbers, dates, JSON/XML), and clusters results with labels that explain how and why differences occur. On multi-million-row datasets, SmartDiff achieves over 95 percent precision and recall, runs 30 to 40 percent faster, and uses 30 to 50 percent less memory than baselines; in user studies, it reduces root-cause analysis time from 10 hours to 12 minutes. An LLM-assisted labeling pipeline produces deterministic, schema-valid multilabel explanations using retrieval augmentation and constrained decoding; ablations show further gains in label accuracy and time to diagnosis over rules-only baselines. These results indicate SmartDiff's utility for migration validation, regression testing, compliance auditing, and continuous data quality monitoring. Index Terms: data differencing, schema evolution, data quality, parallel processing, clustering, explainable validation, big data
- Abstract(参考訳): データエンジニアリングワークフローは、ファイル、データベース、クエリアウトプット間で信頼性の高い差異を必要とするが、既存のツールはスキーマドリフト、異質な型、限定的な説明可能性を必要とする。
SmartDiffはスキーマ対応マッピング、タイプ固有のコンパレータ、並列実行を組み合わせた統合システムである。
スキーマの進化、構造化データと半構造化データ(文字列、数値、日付、JSON/XML)の比較、そして、どのようにしてなぜ違いが起こるかを説明するラベルによるクラスタ結果を比較する。
数百万行のデータセットにおいて、SmartDiffは95%以上の精度とリコールを実現し、30~40%高速に動作し、ベースラインよりも30~50%少ないメモリを使用する。
LLM支援ラベリングパイプラインは、検索強化と制約付き復号化を用いた決定論的、スキーマ値のマルチラベル説明を生成する。
これらの結果は、マイグレーションバリデーション、回帰テスト、コンプライアンス監査、継続的データ品質監視のためのSmartDiffのユーティリティを示している。
インデックス用語:データの違い、スキーマの進化、データ品質、並列処理、クラスタリング、説明可能な検証、ビッグデータ
関連論文リスト
- AQuilt: Weaving Logic and Self-Inspection into Low-Cost, High-Relevance Data Synthesis for Specialist LLMs [24.511434195711267]
AQuiltは、特定のドメインに対して、対応するラベルなしデータから命令チューニングデータを構築するためのフレームワークである。
我々は,強力なデータ合成モデルをトレーニングするために,703kサンプルのデータセットを構築した。
論文 参考訳(メタデータ) (2025-07-24T17:03:27Z) - PSDNorm: Test-Time Temporal Normalization for Deep Learning in Sleep Staging [63.05435596565677]
我々は,モンジュマッピングと時間文脈を利用したPSDNormを提案し,信号の深層学習モデルにおける特徴写像の正規化を行う。
PSDNormは、BatchNormよりも4倍のデータ効率が高く、目に見えない左のデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-06T16:20:25Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data
Augmentation for Multi-hop Fact Verification [28.453817513380276]
言語学的に多様でラベルに富む対物を生成するための有理感な手法を開発した。
具体的には、多様で流動的なカウンターファクトは、Explain-Edit-Generateアーキテクチャを介して生成される。
実験の結果,提案手法はSOTAベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-23T02:39:14Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of
Large Language Models [83.80695137230134]
本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けする,オープンセットのきめ細かいタグタグであるInsTagを提案する。
我々は、人気のあるオープンソースSFTデータセットを分析し、モデル能力がより多種多様な複雑なデータで成長することを発見した。
結果として得られたモデルであるTagLMは、MT-Benchによって評価されたかなり大きなSFTデータに基づいて、オープンソースモデルより優れている。
論文 参考訳(メタデータ) (2023-08-14T11:16:28Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - NEMA: Automatic Integration of Large Network Management Databases [2.729259935203344]
本研究では,大規模なNEMA(Network MAnagement Database)のためのマッチング手法を開発し,効率的なデータ統合と接続のためのインスタンスレベルのマッチングをデプロイする。
1,458のフィールドを持つ大規模データベースを計測した結果,NEMAのアキュラシーは最大2%-10%高い値を示した。
論文 参考訳(メタデータ) (2020-06-01T22:21:40Z) - Leveraging Schema Labels to Enhance Dataset Search [20.63182827636973]
本稿では,データセットテーブルの内容に基づいて可能なスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。
生成したスキーマラベルを混合ランキングモデルに組み込み、クエリとデータセットメタデータの関連性を検討する。
実験により,本手法はデータセット検索タスクの精度とNDCGスコアを効果的に向上できることが示された。
論文 参考訳(メタデータ) (2020-01-27T22:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。