論文の概要: Data Portraits: Recording Foundation Model Training Data
- arxiv url: http://arxiv.org/abs/2303.03919v1
- Date: Mon, 6 Mar 2023 04:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:15:58.332017
- Title: Data Portraits: Recording Foundation Model Training Data
- Title(参考訳): Data Portraits: 基礎モデルトレーニングデータの記録
- Authors: Marc Marone, Benjamin Van Durme
- Abstract要約: ファンデーションモデルは、ますます巨大で不透明なデータセットでトレーニングされている。
データポートレイト(Data Portraits): トレーニングデータを記録し、下流の検査を可能にするアーティファクト。
当社のツールは軽量で高速で、オーバーヘッドのデータセットサイズはわずか3%です。
- 参考スコア(独自算出の注目度): 35.58966470107625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are trained on increasingly immense and opaque datasets.
Even while these models are now key in AI system building, it can be difficult
to answer the straightforward question: has the model already encountered a
given example during training? We therefore propose a widespread adoption of
Data Portraits: artifacts that record training data and allow for downstream
inspection. First we outline the properties of such an artifact and discuss how
existing solutions can be used to increase transparency. We then propose and
implement a solution based on data sketching, stressing fast and space
efficient querying. Using our tool, we document a popular large language
modeling corpus (the Pile) and show that our solution enables answering
questions about test set leakage and model plagiarism. Our tool is lightweight
and fast, costing only 3% of the dataset size in overhead. We release a demo of
our tools at dataportraits.org and call on dataset and model creators to
release Data Portraits as a complement to current documentation practices.
- Abstract(参考訳): 基礎モデルはますます複雑で不透明なデータセットで訓練される。
これらのモデルは現在、AIシステム構築においてキーになっているが、直接的な質問に答えることは難しい。
そこで,我々は,トレーニングデータを記録し,下流の検査を可能にするデータポートレートを広く採用することを提案する。
まず,このようなアーティファクトの特性を概説し,既存のソリューションが透明性を高める上でどのように役立つかについて議論する。
そこで我々は,高速で空間効率のよいクエリを行うために,データスケッチに基づくソリューションを提案し,実装する。
このツールを用いて,人気のある大規模言語モデリングコーパス(ザ・パイル)を文書化し,テストセットの漏洩とモデル盗用に関する質問に答えることができることを示す。
私たちのツールは軽量で高速で、オーバーヘッドのデータセットサイズはわずか3%です。
私たちはdataportraits.orgでツールのデモをリリースし、データセットとモデルクリエーターに現在のドキュメントプラクティスを補完するデータポートレートのリリースを呼び掛けます。
関連論文リスト
- How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data [26.836532205017104]
多くのデータセットが深刻なデータ漏洩に悩まされていることが分かりました。
この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。
我々は、LLaMA3から微調整されたモデルのファミリーであるXCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-05T17:46:30Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - VQA Training Sets are Self-play Environments for Generating Few-shot Pools [2.556825820539693]
本稿では,タスクメトリクスを報酬として計算環境を構築するために,既存のトレーニングセットを直接利用できる手法を提案する。
提案手法は、ゼロショットプロンプトから始まり、トレーニングセット上のタスクメトリックを最大化する少数ショット例を選択することにより、反復的にそれらを洗練する。
我々の実験では、GeminiがScreenAIのようなより小型で特殊なモデルを使って、トレーニングセットのパフォーマンスを反復的に改善する方法を実証している。
論文 参考訳(メタデータ) (2024-05-30T07:38:58Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Soft Labels for Rapid Satellite Object Detection [0.0]
ソフトラベルの新しいデータセットの基盤として,衛星物体検出法を提案する。
ソフトラベルを用いて、元のデータに基づいてトレーニングされたモデルとほぼ同じ精度のモデルをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-12-01T15:23:13Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Generative Models as a Data Source for Multiview Representation Learning [38.56447220165002]
生成モデルは、訓練されたデータとほとんど区別できないリアルなイメージを生成することができる。
十分な生成モデルがあれば、まだデータセットが必要なのでしょうか?
ブラックボックス生成モデルから汎用的な視覚表現を学習する際の課題について検討する。
論文 参考訳(メタデータ) (2021-06-09T17:54:55Z) - Detection and Segmentation of Custom Objects using High Distraction
Photorealistic Synthetic Data [0.5076419064097732]
合成データを用いてインスタンスセグメンテーションを行うための簡便で有用な手法を示す。
目標は、カスタムオブジェクトの実際のデータを手動で収集し、注釈付けすることで、高いパフォーマンスを達成することである。
このホワイトペーパーは、光実写シミュレーションデータが現実の応用に利用できるという強い証拠を提供する。
論文 参考訳(メタデータ) (2020-07-28T16:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。