論文の概要: Croissant: A Metadata Format for ML-Ready Datasets
- arxiv url: http://arxiv.org/abs/2403.19546v1
- Date: Thu, 28 Mar 2024 16:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-29 15:34:50.608539
- Title: Croissant: A Metadata Format for ML-Ready Datasets
- Title(参考訳): Croissant:ML対応データセットのメタデータフォーマット
- Authors: Mubashara Akhtar, Omar Benjelloun, Costanza Conforti, Joan Giner-Miguelez, Nitisha Jain, Michael Kuchnik, Quentin Lhoest, Pierre Marcenac, Manil Maskey, Peter Mattson, Luis Oala, Pierre Ruyssen, Rajat Shinde, Elena Simperl, Goeffry Thomas, Slava Tykhonov, Joaquin Vanschoren, Steffen Vogler, Carole-Jean Wu,
- Abstract要約: Croissantは、MLツールやフレームワークでのデータの使用方法を簡単にするデータセットのメタデータフォーマットである。
すでに、数十万のデータセットにまたがる、人気のあるデータセットリポジトリがサポートしている。
- 参考スコア(独自算出の注目度): 12.095442834853088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is a critical resource for Machine Learning (ML), yet working with data remains a key friction point. This paper introduces Croissant, a metadata format for datasets that simplifies how data is used by ML tools and frameworks. Croissant makes datasets more discoverable, portable and interoperable, thereby addressing significant challenges in ML data management and responsible AI. Croissant is already supported by several popular dataset repositories, spanning hundreds of thousands of datasets, ready to be loaded into the most popular ML frameworks.
- Abstract(参考訳): データは機械学習(ML)にとって重要なリソースであるが、データを扱うことは重要な摩擦点である。
本稿では、MLツールやフレームワークでのデータの使用方法を簡単にするデータセットのメタデータフォーマットであるCroissantを紹介する。
Croissantは、データセットをより見つけやすく、ポータブルで、相互運用可能にし、MLデータ管理と責任あるAIにおける重要な課題に対処する。
Croissantはすでに、数十万のデータセットにまたがる人気のあるデータセットリポジトリによってサポートされており、最も人気のあるMLフレームワークにロードされる準備ができている。
関連論文リスト
- Leveraging Retrieval Augmented Generative LLMs For Automated Metadata Description Generation to Enhance Data Catalogs [1.1957520154275776]
データカタログは、さまざまなデータ資産の収集とアクセスのためのリポジトリとして機能する。
組織内の多くのデータカタログは、資産記述のようなメタデータが不十分なため、検索容易性が制限されている。
本稿では,メタデータ作成に関わる課題について考察し,既存のメタデータコンテンツを活用するという,独特なプロンプト・エンリッチメントの考え方を提案する。
論文 参考訳(メタデータ) (2025-03-12T02:33:33Z) - MetaXCR: Reinforcement-Based Meta-Transfer Learning for Cross-Lingual Commonsense Reasoning [6.414022634745093]
クロスランガルな低リソースのCommonsense Reasoningは、さまざまなイングランドのデータセットを活用して、ラベル付きデータに制限のある新たな言語間のターゲットデータセットへの適応を支援することを目的としている。
本稿では,多言語で低リソースなCommonsense Reasoning(MetaXCR)のためのマルチソースアダプタを提案する。
論文 参考訳(メタデータ) (2025-03-09T09:27:57Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts [0.0]
本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。
その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。
データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
論文 参考訳(メタデータ) (2024-08-31T12:56:38Z) - MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models [10.242002062961083]
英語,日本語,中国語の21のサブデータセットを含むMultilingual MRE混合データセット(MMM)を提案する。
また,Large Language Models (LLM) を用いたデータセット翻訳手法を提案する。
オープンドメイン情報抽出大言語モデル(OIELLM)を学習するための統合入力出力フレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-15T17:50:43Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - A Standardized Machine-readable Dataset Documentation Format for Responsible AI [8.59437843168878]
Croissant-RAIは、AIデータセットの発見性、相互運用性、信頼性を高めるために設計された、機械可読なメタデータフォーマットである。
主要なデータ検索エンジン、リポジトリ、機械学習フレームワークに統合されている。
論文 参考訳(メタデータ) (2024-06-04T16:40:14Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Metadata Representations for Queryable ML Model Zoos [73.24799582702326]
機械学習(ML)の実践者や組織は、事前訓練されたモデルのモデル動物園を構築しており、モデルの性質を記述するメタデータを含んでいる。
メタタダは現在標準化されておらず、表現力は限られている。
本稿では,MLモデルのメタデータ表現と管理の標準化を提唱し,そのメタデータの管理とクエリを支援するツールキットを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:04:14Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - PyHard: a novel tool for generating hardness embeddings to support
data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。
ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。
我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文 参考訳(メタデータ) (2021-09-29T14:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。