論文の概要: Fingerprinting and Building Large Reproducible Datasets
- arxiv url: http://arxiv.org/abs/2306.11391v1
- Date: Tue, 20 Jun 2023 08:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 19:13:31.514953
- Title: Fingerprinting and Building Large Reproducible Datasets
- Title(参考訳): フィンガープリンティングと大規模再現可能なデータセットの構築
- Authors: Romain Lefeuvre, Jessie Galasso, Benoit Combemale, Houari Sahraoui and
Stefano Zacchiroli
- Abstract要約: 提案手法は,大規模なデータセットの作成を容易にし,その証明を確実にするツール支援手法である。
抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。
- 参考スコア(独自算出の注目度): 3.2873782624127843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obtaining a relevant dataset is central to conducting empirical studies in
software engineering. However, in the context of mining software repositories,
the lack of appropriate tooling for large scale mining tasks hinders the
creation of new datasets. Moreover, limitations related to data sources that
change over time (e.g., code bases) and the lack of documentation of extraction
processes make it difficult to reproduce datasets over time. This threatens the
quality and reproducibility of empirical studies.
In this paper, we propose a tool-supported approach facilitating the creation
of large tailored datasets while ensuring their reproducibility. We leveraged
all the sources feeding the Software Heritage append-only archive which are
accessible through a unified programming interface to outline a reproducible
and generic extraction process. We propose a way to define a unique fingerprint
to characterize a dataset which, when provided to the extraction process,
ensures that the same dataset will be extracted.
We demonstrate the feasibility of our approach by implementing a prototype.
We show how it can help reduce the limitations researchers face when creating
or reproducing datasets.
- Abstract(参考訳): 関連するデータセットを取得することは、ソフトウェア工学における実証研究の中心である。
しかし、ソフトウェアのリポジトリをマイニングする文脈では、大規模なマイニングタスクに適したツールがないため、新しいデータセットの作成が妨げられる。
さらに、時間とともに変化するデータソースに関する制限(例えば、コードベース)と抽出プロセスのドキュメントの欠如は、データセットの再現を時間とともに困難にしている。
これは実証研究の品質と再現性を脅かす。
本稿では,その再現性を確保しつつ,大規模データセットの作成を容易にするツール支援手法を提案する。
私たちは、再現可能で汎用的な抽出プロセスの概要を説明するために、統一プログラミングインターフェースを通じてアクセス可能なソフトウェアヘリテージの追加のみのアーカイブを提供するすべてのソースを利用しました。
抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。
プロトタイプの実装により,提案手法の実現可能性を示す。
データセットの作成や再生において、研究者が直面する制限を減らすのにどのように役立つかを示す。
関連論文リスト
- Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking [0.9944647907864256]
模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。
この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-03-01T14:18:46Z) - Dataset Factory: A Toolchain For Generative Computer Vision Datasets [0.9013233848500058]
メタデータからサンプルの保存と処理を分離する「データセットファクトリ」を提案する。
これにより、機械学習チームや個々の研究者に対して、大規模にデータ中心の操作が可能になる。
論文 参考訳(メタデータ) (2023-09-20T19:43:37Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。