論文の概要: Data Curation Matters: Model Collapse and Spurious Shift Performance Prediction from Training on Uncurated Text Embeddings
- arxiv url: http://arxiv.org/abs/2506.17989v1
- Date: Sun, 22 Jun 2025 11:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.688074
- Title: Data Curation Matters: Model Collapse and Spurious Shift Performance Prediction from Training on Uncurated Text Embeddings
- Title(参考訳): データキュレーションの課題:不正確なテキスト埋め込みのトレーニングによるモデル崩壊と鮮やかなシフト性能予測
- Authors: Lucas Mattioli, Youness Ait Hadichou, Sabrina Chaouche, Martin Gonzalez,
- Abstract要約: 未処理のテキスト埋め込み(TE)のトレーニングモデルは、モデル崩壊として知られる深刻な障害モードにつながる可能性がある。
データキュレーションのプロキシとしてTE品質の新しい視点を提供する。
これらの知見は、よりニュアンスなキュレーションの必要性と埋め込みに基づく表現の評価を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training models on uncurated Text Embeddings (TEs) derived from raw tabular data can lead to a severe failure mode known as model collapse, where predictions converge to a single class regardless of input. By comparing models trained with identical hyper-parameter configurations on both raw tabular data and their TE-derived counterparts, we find that collapse is a consistent failure mode in the latter setting. We introduce a set of metrics that capture the extent of model collapse, offering a new perspective on TE quality as a proxy for data curation. Our results reveal that TE alone does not effectively function as a curation layer - and that their quality significantly influences downstream learning. More insidiously, we observe that the presence of model collapse can yield artificially inflated and spurious Accuracy-on-the-Line correlation. These findings highlight the need for more nuanced curation and evaluation of embedding-based representations, particularly in out-of-distribution settings.
- Abstract(参考訳): 生の表データから導かれる未修正テキスト埋め込み(TE)のトレーニングモデルは、モデル崩壊として知られる深刻な障害モードにつながり、予測は入力に関係なく単一のクラスに収束する。
原表データとTE由来データの両方で同一のハイパーパラメータ構成でトレーニングされたモデルを比較することで、崩壊は後者の設定において一貫した障害モードであることが分かる。
データキュレーションのプロキシとしてTE品質の新しい視点を提供する。
その結果,TEだけではキュレーション層として機能せず,その品質が下流学習に大きく影響していることが判明した。
さらに本研究は, モデル崩壊の存在が, 人工的に膨らませ, 突発的な精度と線形相関をもたらすことを観察する。
これらの知見は、特にアウト・オブ・ディストリビューション・セッティングにおいて、よりニュアンスなキュレーションと埋め込みに基づく表現の評価の必要性を浮き彫りにしている。
関連論文リスト
- When Models Don't Collapse: On the Consistency of Iterative MLE [34.99810116340191]
最大誤差推定(MLE)のためのモデル崩壊の研究
実データの一部が消えても崩壊は避けられることを示す非漸近境界を確立する。
MLE整合性以外にもいくつかの仮定(MLE整合性)が本当に必要であることを示す。
論文 参考訳(メタデータ) (2025-05-25T08:50:46Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Training Deep Normalizing Flow Models in Highly Incomplete Data
Scenarios with Prior Regularization [13.985534521589257]
ハイパウシティシナリオにおけるデータ分布の学習を容易にする新しいフレームワークを提案する。
提案手法は,不完全データから学習過程を協調最適化タスクとして行うことに由来する。
論文 参考訳(メタデータ) (2021-04-03T20:57:57Z) - Elastic weight consolidation for better bias inoculation [24.12790037712358]
EWC(Elastic Weight Consolidation)は、モデルの微調整によってバイアスを緩和する。
EWCは標準的な微調整を支配し、元の(バイアス付き)データセットを忘れるレベルの低いモデルを生成する。
論文 参考訳(メタデータ) (2020-04-29T17:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。