論文の概要: Measuring Data
- arxiv url: http://arxiv.org/abs/2212.05129v1
- Date: Fri, 9 Dec 2022 22:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:16:48.391541
- Title: Measuring Data
- Title(参考訳): データの測定
- Authors: Margaret Mitchell and Alexandra Sasha Luccioni and Nathan Lambert and
Marissa Gerchick and Angelina McMillan-Major and Ezinwanne Ozoani and Nazneen
Rajani and Tristan Thrush and Yacine Jernite and Douwe Kiela
- Abstract要約: 我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
- 参考スコア(独自算出の注目度): 79.89948814583805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify the task of measuring data to quantitatively characterize the
composition of machine learning data and datasets. Similar to an object's
height, width, and volume, data measurements quantify different attributes of
data along common dimensions that support comparison. Several lines of research
have proposed what we refer to as measurements, with differing terminology; we
bring some of this work together, particularly in fields of computer vision and
language, and build from it to motivate measuring data as a critical component
of responsible AI development. Measuring data aids in systematically building
and analyzing machine learning (ML) data towards specific goals and gaining
better control of what modern ML systems will learn. We conclude with a
discussion of the many avenues of future work, the limitations of data
measurements, and how to leverage these measurement approaches in research and
practice.
- Abstract(参考訳): 機械学習データとデータセットの合成を定量的に特徴付けるために,データ計測のタスクを識別する。
オブジェクトの高さ、幅、ボリュームと同様に、データ測定は、比較をサポートする共通の次元に沿ってデータの異なる属性を定量化する。
私たちはこれらの作業のいくつかを、特にコンピュータビジョンと言語の分野で一緒に行い、それをもとに、責任あるai開発の重要な要素としてデータを測定する動機づけとなるように構築します。
機械学習(ML)データを特定の目標に向けて体系的に構築し分析し、現代のMLシステムが何を学習するかをよりよく制御する上で、データアシストを測定する。
結論として,今後の研究の多くの道筋,データ測定の限界,研究と実践におけるこれらの測定アプローチの活用方法について論じた。
関連論文リスト
- Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.35461485731162]
本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文 参考訳(メタデータ) (2024-11-23T22:13:38Z) - Evaluating Generative AI Systems is a Social Science Measurement Challenge [78.35388859345056]
我々は,GenAIシステムの能力,影響,機会,リスクに関連する概念を測定するための枠組みを提案する。
このフレームワークは、背景概念、体系化された概念、測定器、インスタンスレベルの測定そのものの4つのレベルを区別する。
論文 参考訳(メタデータ) (2024-11-17T02:35:30Z) - Data-driven Modeling in Metrology -- A Short Introduction, Current Developments and Future Perspectives [3.5840407154326224]
デジタル技術、拡張型センサーネットワーク、高性能コンピューティングは、データ駆動方式へのシフトを拡大している。
ここでは、データ駆動モデリングがもたらす様々な機会と、それらが既に様々な現実世界のアプリケーションで実装されている方法を示す。
論文 参考訳(メタデータ) (2024-06-24T14:09:45Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - Data Quality Measures and Efficient Evaluation Algorithms for
Large-Scale High-Dimensional Data [0.15229257192293197]
データ品質の2つの重要な側面であるクラス分離性とクラス内の変動性を計算する2つのデータ品質対策を提案します。
ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点を生かした品質測定を効率的に行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-05T10:23:08Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - On the Use of Interpretable Machine Learning for the Management of Data
Quality [13.075880857448059]
我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。
私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
論文 参考訳(メタデータ) (2020-07-29T08:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。