論文の概要: Data Twinning
- arxiv url: http://arxiv.org/abs/2110.02927v1
- Date: Wed, 6 Oct 2021 17:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:38:27.176581
- Title: Data Twinning
- Title(参考訳): データツイニング
- Authors: Akhil Vakayil and V. Roshan Joseph
- Abstract要約: Twinningは、データセットをトレーニングとテストセットに最適に分割するモデルに依存しない方法であるSPlitに基づいている。
ツインニングはSPlitアルゴリズムよりも桁違いに高速で、データ圧縮などのビッグデータ問題に適用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we develop a method named Twinning, for partitioning a dataset
into statistically similar twin sets. Twinning is based on SPlit, a recently
proposed model-independent method for optimally splitting a dataset into
training and testing sets. Twinning is orders of magnitude faster than the
SPlit algorithm, which makes it applicable to Big Data problems such as data
compression. Twinning can also be used for generating multiple splits of a
given dataset to aid divide-and-conquer procedures and $k$-fold cross
validation.
- Abstract(参考訳): 本研究では,データセットを統計的に類似した双対集合に分割するTwinningという手法を開発した。
Twinningは、データセットをトレーニングとテストセットに最適に分割する、最近提案されたモデルに依存しないSPlitに基づいている。
ツインニングはSPlitアルゴリズムよりも桁違いに高速で、データ圧縮などのビッグデータ問題に適用できる。
twinningは、分割と分割の手順と$k$-foldのクロス検証を支援するために、所定のデータセットの複数の分割を生成するためにも使用できる。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文 参考訳(メタデータ) (2024-10-12T02:48:34Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - Conformal Frequency Estimation using Discrete Sketched Data with
Coverage for Distinct Queries [35.67445122503686]
本稿では、非常に大きな離散データセットにおいて、問合せ対象の周波数に対する信頼区間を構築するための共形推論手法を開発する。
提案手法は,シミュレーションにおける既存の頻繁主義者やベイズ的な代替手法と比較して,経験的性能が向上したことを示す。
論文 参考訳(メタデータ) (2022-11-09T00:05:29Z) - PMSSC: Parallelizable multi-subset based self-expressive model for
subspace clustering [4.347947462145898]
サブスペースクラスタリング手法は、データセット内の他のデータポイントの線形結合として各データポイントを表す自己表現モデルを採用している。
並列化可能なマルチサブセットベース自己表現モデル(PMS)を導入し,複数のサブセットを組み合わせることで各データポイントを表現する。
PMSSCは、サブセットから得られる複数の自己表現係数ベクトルを組み合わせることができ、自己表現性の向上に寄与する。
論文 参考訳(メタデータ) (2021-11-24T02:22:43Z) - SPlit: An Optimal Method for Data Splitting [0.0]
データセットをトレーニングおよびテストセットに分割するためのSPlitと呼ばれる最適な方法を提案する。
逐次隣接アルゴリズムを用いてデータセットからのサブサンプリングにSPを適用する。
実際のデータセットに対するSPlitの実装は、最悪のテスト性能を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2020-12-20T14:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。