論文の概要: Automated Big Data Quality Assessment using Knowledge Graph Embeddings
- arxiv url: http://arxiv.org/abs/2605.18833v1
- Date: Tue, 12 May 2026 23:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.367385
- Title: Automated Big Data Quality Assessment using Knowledge Graph Embeddings
- Title(参考訳): 知識グラフ埋め込みを用いたビッグデータ品質自動評価
- Authors: Hadi Fadlallah, Rima Kilany, Mitri Haber, Ali Jaber,
- Abstract要約: 本稿では,データ品質の自動評価を強化するための知識に基づく新しい手法を提案する。
提案手法では,知識グラフの埋め込みを利用して,入力データセットのコンテキスト表現間のエッジ不足を予測する。
このアプローチを評価するために、AmpliGraph(AccentureLabsが開発したベンチマークフレームワーク)を活用しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated data quality assessment is crucial for managing big data, but existing solutions face challenges in achieving accurate context-aware assessment. This paper presents a novel knowledge-based approach to enhance automated data quality assessment. Our approach utilizes knowledge graph embeddings to predict missing edges between the input dataset's context representation and the relevant quality rules and dimensions within a knowledge graph representing contextual data characteristics and the required quality assessment operations. We surpass conventional practices by integrating diverse representations within the knowledge graph, drawing insights from contextual information from a thorough literature investigation. This integration allows us to develop a comprehensive and context-specific data quality assessment plan tailored to each context. Leveraging the knowledge graph improves our understanding of the input dataset's context, overcoming the limitations of traditional methods that rely solely on strict matching and overlook contextual characteristics. By injecting numerical edge attributes, we assign corresponding weights to each predicted quality measurement, providing a comprehensive data quality assessment plan for the input dataset. To evaluate our approach, we leverage AmpliGraph, a framework developed and benchmarked by AccentureLabs. The evaluation involves employing a real-world radiation sensors dataset provided by the Lebanese Atomic Energy Commission (LAEC-CNRS). The results obtained from this evaluation demonstrate the capability of our solution to generate a comprehensive data quality assessment plan for the given input dataset.
- Abstract(参考訳): ビッグデータ管理には,データ品質の自動評価が不可欠だが,既存のソリューションでは,正確なコンテキストアセスメントを実現する上で,課題に直面している。
本稿では,データ品質の自動評価を強化するための知識に基づく新しい手法を提案する。
提案手法では,知識グラフの埋め込みを用いて,入力データセットのコンテキスト表現と,コンテキストデータの特徴を表す知識グラフ内の関連する品質ルールと次元との間のエッジの欠落を予測する。
我々は知識グラフに多様な表現を組み込むことで従来の実践を超越し、詳細な文献調査から文脈情報から洞察を引き出す。
この統合により、各コンテキストに合わせて、包括的でコンテキスト固有のデータ品質評価計画を作成することができる。
知識グラフを活用することで、入力データセットのコンテキストに対する理解が向上し、厳密なマッチングとコンテキスト特性の見落としにのみ依存する従来のメソッドの制限を克服します。
数値エッジ属性を注入することにより、予測された各品質測定に対応する重みを割り当て、入力データセットの総合的なデータ品質評価計画を提供する。
このアプローチを評価するために、AmpliGraph(AccentureLabsが開発したベンチマークフレームワーク)を活用しました。
評価には、レバノン原子力委員会(LAEC-CNRS)が提供した実世界の放射線センサーのデータセットを使用する。
この評価から得られた結果は,与えられた入力データセットに対する包括的データ品質評価計画を生成するためのソリューションの有効性を示すものである。
関連論文リスト
- QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding [80.66379018208568]
視覚的品質評価は、予測から解釈可能な品質理解へとシフトしている。
現在のアプローチは、教師付き微調整や強化学習に頼っている。
本稿では,視覚的品質知覚のための大規模マルチモーダルモデルの潜在知覚的知識を体系的に活用するフレームワークであるVbfQualiRAGを提案する。
論文 参考訳(メタデータ) (2026-01-26T06:27:03Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Scaling-up Perceptual Video Quality Assessment [54.691252495691955]
マルチモーダル・イン・ループ型VQAマルチモーダル・インストラクション・データベースを効率的に構築する方法を示す。
我々の焦点は、微細なVQAの知識を提供するために、多くのコンテキスト内インストラクションデータを持つ技術と美的品質の次元である。
この結果から,我々のモデルは,品質理解と評価の両タスクにおいて,最先端のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T16:24:52Z) - A Guide to Misinformation Detection Data and Evaluation [5.292221448832313]
文献で最大の(ミス)情報データセットを収集し,75。
我々は,文やクレームからなる36のデータセットと,純粋に段落形式のデータからなる9つのデータセットの質を評価する。
このガイドは、高品質なデータとより良い基盤評価のためのロードマップを提供し、最終的には誤情報検出の研究を改善することを目的としている。
論文 参考訳(メタデータ) (2024-11-07T18:47:39Z) - Towards Explainable Automated Data Quality Enhancement without Domain Knowledge [0.0]
我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
論文 参考訳(メタデータ) (2024-09-16T10:08:05Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - Statistical Learning to Operationalize a Domain Agnostic Data Quality
Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。
この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文 参考訳(メタデータ) (2021-08-16T12:20:57Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。