Fugu-MT 論文翻訳(概要): Dataset Factory: A Toolchain For Generative Computer Vision Datasets

論文の概要: Dataset Factory: A Toolchain For Generative Computer Vision Datasets

arxiv url: http://arxiv.org/abs/2309.11608v1
Date: Wed, 20 Sep 2023 19:43:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 17:53:36.662919
Title: Dataset Factory: A Toolchain For Generative Computer Vision Datasets
Title（参考訳）: Dataset Factory: 生成するコンピュータビジョンデータセットのためのツールチェーン
Authors: Daniel Kharitonov and Ryan Turner
Abstract要約: メタデータからサンプルの保存と処理を分離する「データセットファクトリ」を提案する。これにより、機械学習チームや個々の研究者に対して、大規模にデータ中心の操作が可能になる。
参考スコア（独自算出の注目度）: 0.9013233848500058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI workflows heavily rely on data-centric tasks - such as filtering samples by annotation fields, vector distances, or scores produced by custom classifiers. At the same time, computer vision datasets are quickly approaching petabyte volumes, rendering data wrangling difficult. In addition, the iterative nature of data preparation necessitates robust dataset sharing and versioning mechanisms, both of which are hard to implement ad-hoc. To solve these challenges, we propose a "dataset factory" approach that separates the storage and processing of samples from metadata and enables data-centric operations at scale for machine learning teams and individual researchers.
Abstract（参考訳）: ジェネレーティブAIワークフローは、アノテーションフィールドによるサンプルのフィルタリング、ベクトル距離、カスタム分類器によるスコアなど、データ中心のタスクに大きく依存している。同時に、コンピュータビジョンデータセットはペタバイト単位に急速に接近し、データのレンダリングが困難になっている。さらに、データ準備の反復的な性質は、堅牢なデータセット共有とバージョニングメカニズムを必要とし、どちらもアドホックを実装するのが難しい。これらの課題を解決するために,我々は,サンプルの保存と処理をメタデータから分離し,機械学習チームや個々の研究者を対象とした大規模データ中心操作を可能にする「データセットファクトリ」アプローチを提案する。

関連論文リスト

Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality [67.67387254989018]
各種計算予算およびデータフィルタリングと復号化によって生成された複数の事前学習データセットにおけるモデル性能について検討する。トレーニングレシピに適切な修正を加えると、最大10エポックのアグレッシブフィルタデータセットを繰り返すことで、複数の計算予算のオーダーで1エポックの10倍のスーパーセットでのトレーニングを上回ります。
論文参考訳（メタデータ） (2025-03-10T21:51:17Z)
Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文参考訳（メタデータ） (2025-02-16T11:46:23Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
Making Sense of Data in the Wild: Data Analysis Automation at Scale [0.1747623282473278]
本稿では,インテリジェントエージェントと検索拡張生成を組み合わせることで,データ解析,データセットキュレーション,インデックス作成を大規模に自動化する手法を提案する。提案手法により,より詳細なデータセット記述,より高いヒット率,データセット検索タスクの多様性が得られた。
論文参考訳（メタデータ） (2025-01-27T10:04:10Z)
Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文参考訳（メタデータ） (2024-08-21T04:45:12Z)
Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
A Configurable Library for Generating and Manipulating Maze Datasets [0.9268994664916388]
迷路は様々な生成アルゴリズムのために優れたテストベッドとして機能する。我々は、maze-solvingタスクからなるデータセットの生成、処理、視覚化のための包括的なライブラリである、$textttmaze-dataset$を提示する。
論文参考訳（メタデータ） (2023-09-19T10:20:11Z)
DataAssist: A Machine Learning Approach to Data Cleaning and Preparation [0.0]
DataAssistは、MLインフォームドメソッドを使用してデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームである。我々のツールは、経済、ビジネス、予測アプリケーションなど、さまざまな分野に適用でき、データの浄化と準備に費やした時間の50%以上を節約できる。
論文参考訳（メタデータ） (2023-07-14T01:50:53Z)
Fingerprinting and Building Large Reproducible Datasets [3.2873782624127843]
提案手法は,大規模なデータセットの作成を容易にし,その証明を確実にするツール支援手法である。抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。
論文参考訳（メタデータ） (2023-06-20T08:59:33Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Designing Data: Proactive Data Collection and Iteration for Machine Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文参考訳（メタデータ） (2023-01-24T21:40:29Z)
Privacy-Preserving Machine Learning for Collaborative Data Sharing via Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-10T17:36:58Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文参考訳（メタデータ） (2022-06-07T17:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。