論文の概要: Measuring Data
- arxiv url: http://arxiv.org/abs/2212.05129v1
- Date: Fri, 9 Dec 2022 22:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:16:48.391541
- Title: Measuring Data
- Title(参考訳): データの測定
- Authors: Margaret Mitchell and Alexandra Sasha Luccioni and Nathan Lambert and
Marissa Gerchick and Angelina McMillan-Major and Ezinwanne Ozoani and Nazneen
Rajani and Tristan Thrush and Yacine Jernite and Douwe Kiela
- Abstract要約: 我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
- 参考スコア(独自算出の注目度): 79.89948814583805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify the task of measuring data to quantitatively characterize the
composition of machine learning data and datasets. Similar to an object's
height, width, and volume, data measurements quantify different attributes of
data along common dimensions that support comparison. Several lines of research
have proposed what we refer to as measurements, with differing terminology; we
bring some of this work together, particularly in fields of computer vision and
language, and build from it to motivate measuring data as a critical component
of responsible AI development. Measuring data aids in systematically building
and analyzing machine learning (ML) data towards specific goals and gaining
better control of what modern ML systems will learn. We conclude with a
discussion of the many avenues of future work, the limitations of data
measurements, and how to leverage these measurement approaches in research and
practice.
- Abstract(参考訳): 機械学習データとデータセットの合成を定量的に特徴付けるために,データ計測のタスクを識別する。
オブジェクトの高さ、幅、ボリュームと同様に、データ測定は、比較をサポートする共通の次元に沿ってデータの異なる属性を定量化する。
私たちはこれらの作業のいくつかを、特にコンピュータビジョンと言語の分野で一緒に行い、それをもとに、責任あるai開発の重要な要素としてデータを測定する動機づけとなるように構築します。
機械学習(ML)データを特定の目標に向けて体系的に構築し分析し、現代のMLシステムが何を学習するかをよりよく制御する上で、データアシストを測定する。
結論として,今後の研究の多くの道筋,データ測定の限界,研究と実践におけるこれらの測定アプローチの活用方法について論じた。
関連論文リスト
- Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Machine Learning for Multimodal Electronic Health Records-based
Research: Challenges and Perspectives [22.230972071321357]
電子健康記録は患者の健康史に関する豊富な情報を含んでいる。
構造化されたデータに頼ることは 患者の包括的情報を反映するのに 不十分かもしれない
多くの研究が、構造化されていない自由テキストデータも取り入れることで、より正確な結果を得ようとしている。
論文 参考訳(メタデータ) (2021-11-09T01:19:11Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - Data Quality Measures and Efficient Evaluation Algorithms for
Large-Scale High-Dimensional Data [0.15229257192293197]
データ品質の2つの重要な側面であるクラス分離性とクラス内の変動性を計算する2つのデータ品質対策を提案します。
ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点を生かした品質測定を効率的に行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-05T10:23:08Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - On the Use of Interpretable Machine Learning for the Management of Data
Quality [13.075880857448059]
我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。
私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
論文 参考訳(メタデータ) (2020-07-29T08:49:32Z) - Learning Similarity Metrics for Numerical Simulations [29.39625644221578]
本稿では,様々な数値シミュレーションソースから得られるデータを比較するため,安定かつ一般化された指標(LSiM)をニューラルネットワークで計算する手法を提案する。
提案手法は,計量の数学的性質を動機としたシームズネットワークアーキテクチャを用いている。
論文 参考訳(メタデータ) (2020-02-18T20:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。