論文の概要: d-DQIVAR: Data-centric Visual Analytics and Reasoning for Data Quality Improvement
- arxiv url: http://arxiv.org/abs/2507.11960v1
- Date: Wed, 16 Jul 2025 06:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.26235
- Title: d-DQIVAR: Data-centric Visual Analytics and Reasoning for Data Quality Improvement
- Title(参考訳): d-DQIVAR: データ中心のビジュアル分析とデータ品質改善のための推論
- Authors: Hyein Hong, Sangbong Yoo, SeokHwan Choi, Jisue Kim, Seongbum Seo, Haneol Cho, Chansoo Kim, Yun Jang,
- Abstract要約: 我々のシステムは、データ駆動とプロセス駆動の両方のアプローチを利用する視覚分析技術を統合する。
本稿では,本システムによってユーザに対して,実践的なワークフロー内で専門家やドメイン知識を効果的に活用することを可能にする方法について説明する。
- 参考スコア(独自算出の注目度): 2.696480125327807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approaches to enhancing data quality (DQ) are classified into two main categories: data- and process-driven. However, prior research has predominantly utilized batch data preprocessing within the data-driven framework, which often proves insufficient for optimizing machine learning (ML) model performance and frequently leads to distortions in data characteristics. Existing studies have primarily focused on data preprocessing rather than genuine data quality improvement (DQI). In this paper, we introduce d-DQIVAR, a novel visual analytics system designed to facilitate DQI strategies aimed at improving ML model performance. Our system integrates visual analytics techniques that leverage both data-driven and process-driven approaches. Data-driven techniques tackle DQ issues such as imputation, outlier detection, deletion, format standardization, removal of duplicate records, and feature selection. Process-driven strategies encompass evaluating DQ and DQI procedures by considering DQ dimensions and ML model performance and applying the Kolmogorov-Smirnov test. We illustrate how our system empowers users to harness expert and domain knowledge effectively within a practical workflow through case studies, evaluations, and user studies.
- Abstract(参考訳): データ品質(DQ)向上へのアプローチは、データ駆動とプロセス駆動の2つの主要なカテゴリに分類される。
しかし、従来の研究では、機械学習(ML)モデルの性能を最適化するには不十分であることがしばしば証明され、しばしばデータ特性の歪みにつながるデータ駆動フレームワーク内でバッチデータ前処理を主に利用してきた。
既存の研究は主に真のデータ品質改善(DQI)ではなく、データ前処理に焦点を当てている。
本稿では,MLモデルの性能向上を目的としたDQI戦略の促進を目的とした,新しいビジュアル分析システムであるd-DQIVARを紹介する。
我々のシステムは、データ駆動とプロセス駆動の両方のアプローチを利用する視覚分析技術を統合する。
データ駆動技術は、インプット、外れ値検出、削除、フォーマットの標準化、重複レコードの削除、特徴選択といったDQ問題に対処する。
プロセス駆動戦略は、DQ次元とMLモデルの性能を考慮してDQとDQIの手順を評価し、コルモゴロフ・スミルノフテストを適用する。
本システムでは,ケーススタディ,評価,ユーザスタディを通じて,実践的なワークフローにおいて,専門家やドメイン知識を効果的に活用する上で,ユーザにとってどのような効果があるかを説明する。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - From Data Quality for AI to AI for Data Quality: A Systematic Review of Tools for AI-Augmented Data Quality Management in Data Warehouses [0.0]
分析、コンプライアンス、AIのパフォーマンスには、高データ品質(DQ)が不可欠だ。
本研究では,データウェアハウスにおけるAI強化データ品質管理(DQM)をサポートする既存のツールについて検討する。
論文 参考訳(メタデータ) (2024-06-16T13:43:04Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Big Machinery Data Preprocessing Methodology for Data-Driven Models in
Prognostics and Health Management [0.0]
本稿では,複雑なシステムからの監視データの事前処理のための包括的,ステップバイステップパイプラインを提案する。
データ選択とラベル生成の文脈で専門家の知識の重要性を論じる。
検証のために2つのケーススタディが提示され、最終的な目標は、健全で不健康なラベルでクリーンなデータセットを作成することである。
論文 参考訳(メタデータ) (2021-10-08T17:10:12Z) - A Unified Framework for Task-Driven Data Quality Management [10.092524512413831]
高性能なデータは、高性能機械学習(ML)モデルのトレーニングに不可欠である。
既存のデータ品質管理スキームは、MLのパフォーマンスを十分に改善することはできない。
本稿では,タスク駆動型モデルに依存しないDQMフレームワークDataSifterを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:56:28Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。