論文の概要: A domain-specific language for describing machine learning dataset
- arxiv url: http://arxiv.org/abs/2207.02848v1
- Date: Tue, 5 Jul 2022 14:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 13:34:07.338583
- Title: A domain-specific language for describing machine learning dataset
- Title(参考訳): 機械学習データセット記述のためのドメイン固有言語
- Authors: Joan Giner-Miguelez, Abel G\'omez and Jordi Cabot
- Abstract要約: このDSLは、データセットの構造、データの出所、社会的関心事の観点から記述します。
Visual Studio Codeプラグインとして実装され、オープンソースライセンスで公開されている。
- 参考スコア(独自算出の注目度): 3.9576015470370893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Datasets play a central role in the training and evaluation of machine
learning (ML) models. But they are also the root cause of many undesired model
behaviors, such as biased predictions. To overcome this situation, the ML
community is proposing a data-centric cultural shift where data issues are
given the attention they deserve, and more standard practices around the
gathering and processing of datasets start to be discussed and established.
So far, these proposals are mostly high-level guidelines described in natural
language and, as such, they are difficult to formalize and apply to particular
datasets. In this sense, and inspired by these proposals, we define a new
domain-specific language (DSL) to precisely describe machine learning datasets
in terms of their structure, data provenance, and social concerns. We believe
this DSL will facilitate any ML initiative to leverage and benefit from this
data-centric shift in ML (e.g., selecting the most appropriate dataset for a
new project or better replicating other ML results). The DSL is implemented as
a Visual Studio Code plugin, and it has been published under an open source
license.
- Abstract(参考訳): データセットは機械学習(ML)モデルのトレーニングと評価において中心的な役割を果たす。
しかしそれらは、バイアス付き予測など、多くの望ましくないモデル行動の根本原因でもある。
この状況を克服するため、MLコミュニティは、データ問題にふさわしい注意を払って、データセットの収集と処理に関するより標準的なプラクティスが議論され、確立される、データ中心の文化シフトを提案しています。
これまでのところ、これらの提案は主に自然言語で記述されたハイレベルなガイドラインであり、特定のデータセットに対して形式化や適用が難しい。
この意味では、これらの提案に触発されて、機械学習データセットをその構造、データ証明、社会的関心事の観点から正確に記述する新しいドメイン固有言語(DSL)を定義します。
このDSLは、MLのこのデータ中心のシフト(例えば、新しいプロジェクトに適したデータセットを選択する、あるいは他のML結果のより優れた複製など)を活用し、利益を得るためのMLイニシアチブを促進します。
DSLはVisual Studio Codeプラグインとして実装されており、オープンソースライセンスで公開されている。
関連論文リスト
- Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - DataRaceBench V1.4.1 and DataRaceBench-ML V0.1: Benchmark Suites for
Data Race Detection [23.240375422302666]
データレースは、プログラムの正確性に悪影響を及ぼすため、マルチスレッド並列アプリケーションに重大な脅威をもたらす。
オープンソースのベンチマークスイートDataRaceBenchは、これらのデータ競合検出ツールを、システマティックで測定可能な方法で評価するために作られている。
本稿では,DataRaceBench-ML (DRB-ML) という名前の派生データセットを紹介する。
論文 参考訳(メタデータ) (2023-08-16T16:23:13Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - An Exploratory Study on Utilising the Web of Linked Data for Product
Data Mining [3.7376948366228175]
この研究は、構造化されたデータを利用して、製品分類とリンクに使用される言語リソースを作成する方法を研究するためのeコマース領域に焦点を当てている。
我々は、数億の構造化されたデータポイントをRDF n-quadsの形で処理し、後に言語リソースを作成するために3つの異なる方法で使用される製品関連コーパスの数十万ワードを作成します。
評価の結果,単語の埋め込みは両タスクの精度を向上させる上で最も信頼性が高く一貫した手法であることが示唆された。
論文 参考訳(メタデータ) (2021-09-03T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。