論文の概要: Data-Centric AI Requires Rethinking Data Notion
- arxiv url: http://arxiv.org/abs/2110.02491v2
- Date: Thu, 7 Oct 2021 06:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 12:01:51.325868
- Title: Data-Centric AI Requires Rethinking Data Notion
- Title(参考訳): データ中心AIはデータ表記を再考する必要がある
- Authors: Mustafa Hajij, Ghada Zamzmi, Karthikeyan Natesan Ramamurthy, Aldo
Guzman Saenz
- Abstract要約: この研究は、データの分類とコチェーンの概念によって提供される原則を統一することを提案する。
分類学的概念では、データは、この構造を保存するために射を通して作用する数学的構造と見なされる。
コチェーンの概念については、データは関心の離散領域で定義され、演算子を介して作用する関数と見なすことができる。
- 参考スコア(独自算出の注目度): 12.595006823256687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition towards data-centric AI requires revisiting data notions from
mathematical and implementational standpoints to obtain unified data-centric
machine learning packages. Towards this end, this work proposes unifying
principles offered by categorical and cochain notions of data, and discusses
the importance of these principles in data-centric AI transition. In the
categorical notion, data is viewed as a mathematical structure that we act upon
via morphisms to preserve this structure. As for cochain notion, data can be
viewed as a function defined in a discrete domain of interest and acted upon
via operators. While these notions are almost orthogonal, they provide a
unifying definition to view data, ultimately impacting the way machine learning
packages are developed, implemented, and utilized by practitioners.
- Abstract(参考訳): データ中心AIへの移行は、統一されたデータ中心機械学習パッケージを得るために、数学的および実装的な視点からデータ概念を再考する必要がある。
この目的に向けて、この研究は、データカテゴリとコチェーンの概念によって提供される原則の統合を提案し、データ中心のAI移行におけるこれらの原則の重要性について議論する。
分類学的概念では、データは、この構造を保存するために射を通して作用する数学的構造と見なされる。
共鎖の概念では、データは関心の離散領域で定義され、演算子を介して作用する関数と見なすことができる。
これらの概念はほぼ直交しているが、データを見るための統一的な定義を提供し、最終的には機械学習パッケージの開発、実装、利用の方法に影響を与える。
関連論文リスト
- Towards Data Valuation via Asymmetric Data Shapley [17.521840311921274]
従来のデータ共有フレームワークを非対称データ共有フレームワークに拡張します。
我々は、その正確な計算のために、効率的な$k$-nearestの隣り合うアルゴリズムを導入する。
我々は、機械学習タスクやデータ市場コンテキストにまたがって、我々のフレームワークの実践的適用性を実証する。
論文 参考訳(メタデータ) (2024-11-01T06:28:38Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Data-Centric Artificial Intelligence [2.5874041837241304]
データ中心の人工知能(データ中心のAI)は、効率的で効率的なAIベースのシステムを構築する上で、データの体系的な設計とエンジニアリングが不可欠であることを強調する新しいパラダイムである。
関連する用語を定義し、データ中心のパラダイムとモデル中心のパラダイムを対比するための重要な特徴を提供し、データ中心のAIのためのフレームワークを導入します。
論文 参考訳(メタデータ) (2022-12-22T16:41:03Z) - Improved Representation Learning Through Tensorized Autoencoders [7.056005298953332]
オートエンコーダ(AE)は、教師なし表現学習において広く使われている。
本稿では,任意のAEアーキテクチャをテンソル化バージョン(TAE)に拡張するメタアルゴリズムを提案する。
我々は,TAEが標準AEによって回収されたデータ全体の原理成分とは対照的に,異なるクラスタの原理成分を復元できることを証明した。
論文 参考訳(メタデータ) (2022-12-02T09:29:48Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。