論文の概要: $\texttt{dattri}$: A Library for Efficient Data Attribution
- arxiv url: http://arxiv.org/abs/2410.04555v1
- Date: Sun, 6 Oct 2024 17:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:46:25.708994
- Title: $\texttt{dattri}$: A Library for Efficient Data Attribution
- Title(参考訳): $\texttt{dattri}$: 効率的なデータ属性のためのライブラリ
- Authors: Junwei Deng, Ting-Wei Li, Shiyuan Zhang, Shixuan Liu, Yijun Pan, Hao Huang, Xinhe Wang, Pingbang Hu, Xingjian Zhang, Jiaqi W. Ma,
- Abstract要約: データ属性法は、個々のトレーニングサンプルが人工知能(AI)モデルの予測に与える影響を定量化することを目的としている。
新たなデータ属性メソッドが開発されているにもかかわらず、さまざまなデータ属性メソッドの開発、ベンチマーク、デプロイを容易にする包括的なライブラリが欠如している。
本稿では、上記のニーズに対処するオープンソースのデータ属性ライブラリである、$textttdattri$を紹介します。
- 参考スコア(独自算出の注目度): 7.803566162554017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data attribution methods aim to quantify the influence of individual training samples on the prediction of artificial intelligence (AI) models. As training data plays an increasingly crucial role in the modern development of large-scale AI models, data attribution has found broad applications in improving AI performance and safety. However, despite a surge of new data attribution methods being developed recently, there lacks a comprehensive library that facilitates the development, benchmarking, and deployment of different data attribution methods. In this work, we introduce $\texttt{dattri}$, an open-source data attribution library that addresses the above needs. Specifically, $\texttt{dattri}$ highlights three novel design features. Firstly, $\texttt{dattri}$ proposes a unified and easy-to-use API, allowing users to integrate different data attribution methods into their PyTorch-based machine learning pipeline with a few lines of code changed. Secondly, $\texttt{dattri}$ modularizes low-level utility functions that are commonly used in data attribution methods, such as Hessian-vector product, inverse-Hessian-vector product or random projection, making it easier for researchers to develop new data attribution methods. Thirdly, $\texttt{dattri}$ provides a comprehensive benchmark framework with pre-trained models and ground truth annotations for a variety of benchmark settings, including generative AI settings. We have implemented a variety of state-of-the-art efficient data attribution methods that can be applied to large-scale neural network models, and will continuously update the library in the future. Using the developed $\texttt{dattri}$ library, we are able to perform a comprehensive and fair benchmark analysis across a wide range of data attribution methods. The source code of $\texttt{dattri}$ is available at https://github.com/TRAIS-Lab/dattri.
- Abstract(参考訳): データ属性法は、個々のトレーニングサンプルが人工知能(AI)モデルの予測に与える影響を定量化することを目的としている。
大規模AIモデルの現代的開発において、トレーニングデータがますます重要な役割を担っているため、データ属性は、AIのパフォーマンスと安全性を改善する幅広い応用を見出した。
しかし、最近の新しいデータ属性メソッドの急増にもかかわらず、さまざまなデータ属性メソッドの開発、ベンチマーク、デプロイを容易にする包括的なライブラリが欠如している。
本稿では、上記のニーズに対処するオープンソースのデータ属性ライブラリである$\texttt{dattri}$を紹介します。
具体的には、$\texttt{dattri}$は3つの新しいデザイン機能を強調します。
まず、$\texttt{dattri}$は統一的で使いやすいAPIを提案しており、ユーザはコード数行を変更したPyTorchベースの機械学習パイプラインに、さまざまなデータ属性メソッドを統合することができる。
第二に、$\texttt{dattri}$は、Hessian-vector product、inverse-Hessian-vector product、ランダムプロジェクションといったデータ帰属法でよく使われる低レベルのユーティリティ関数をモジュール化し、研究者が新しいデータ帰属法を簡単に開発できるようにする。
第3に、$\texttt{dattri}$は、事前トレーニングされたモデルと、生成AI設定を含むさまざまなベンチマーク設定のための基底真理アノテーションを備えた包括的なベンチマークフレームワークを提供する。
我々は,大規模ニューラルネットワークモデルに適用可能な,最先端の効率的なデータ属性手法を多種に実装し,将来このライブラリを継続的に更新する。
開発された $\texttt{dattri}$ ライブラリを使って、幅広いデータ属性メソッドに対して包括的で公平なベンチマーク分析を行うことができる。
$\texttt{dattri}$のソースコードはhttps://github.com/TRAIS-Lab/dattriで入手できる。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Rethinking Data Augmentation for Tabular Data in Deep Learning [0.0]
タブラルデータは機械学習(ML)で最も広く使われているデータ形式である
近年の文献では、トランスフォーマーベースのモデルによる自己教師型学習は、ツリーベースの手法よりも優れていることが報告されている。
論文 参考訳(メタデータ) (2023-05-17T15:46:03Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Reproducible, incremental representation learning with Rosetta VAE [0.0]
変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の一つである。
我々は、以前に学習した表現を蒸留し、新しいモデルを再現し、事前の結果に基づいて構築する手法であるRosetta VAEを紹介する。
R-VAEは、VAEや$beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において、両方の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-13T20:45:35Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning
Problems in High-dimension [7.200655637873445]
Hamiltonian Monte Carlo (HMC) サンプリングは、RLアルゴリズムをトレーニングするためのデータを生成するための抽出可能な方法を提供する。
textitHamiltonian $Q$-Learningと呼ばれるフレームワークを導入し、理論的にも経験的にも、アクション、報酬、状態遷移のHMCサンプルによって生成されたデータセットから$Q$値が学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-11T17:35:25Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。