論文の概要: Laplace Sample Information: Data Informativeness Through a Bayesian Lens
- arxiv url: http://arxiv.org/abs/2505.15303v1
- Date: Wed, 21 May 2025 09:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.41915
- Title: Laplace Sample Information: Data Informativeness Through a Bayesian Lens
- Title(参考訳): Laplace Sample Information:ベイズレンズによるデータのインフォームティビティ
- Authors: Johannes Kaiser, Kristian Schwethelm, Daniel Rueckert, Georgios Kaissis,
- Abstract要約: 本稿では,情報理論に基づくサンプル情報のLSI(Laplace Sample Information)尺度を提案する。
LSIは, 典型的データの順序付け, ラベルミス検出, クラスワイド情報度測定, データセットの難易度評価に有効であることを示す。
- 参考スコア(独自算出の注目度): 13.319283849678234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately estimating the informativeness of individual samples in a dataset is an important objective in deep learning, as it can guide sample selection, which can improve model efficiency and accuracy by removing redundant or potentially harmful samples. We propose Laplace Sample Information (LSI) measure of sample informativeness grounded in information theory widely applicable across model architectures and learning settings. LSI leverages a Bayesian approximation to the weight posterior and the KL divergence to measure the change in the parameter distribution induced by a sample of interest from the dataset. We experimentally show that LSI is effective in ordering the data with respect to typicality, detecting mislabeled samples, measuring class-wise informativeness, and assessing dataset difficulty. We demonstrate these capabilities of LSI on image and text data in supervised and unsupervised settings. Moreover, we show that LSI can be computed efficiently through probes and transfers well to the training of large models.
- Abstract(参考訳): データセット内の個々のサンプルの情報を正確に推定することは、サンプル選択をガイドできるため、深層学習において重要な目標であり、冗長または潜在的に有害なサンプルを除去することで、モデルの効率と精度を向上させることができる。
本稿では,モデルアーキテクチャや学習環境に広く適用可能な情報理論に基づくサンプル情報量のLaplace Sample Information (LSI) 尺度を提案する。
LSIは、重みの後部とKL分散に対するベイズ近似を利用して、データセットからの興味のサンプルによって誘導されるパラメータ分布の変化を測定する。
LSIは, 典型的データの順序付け, ラベルミス検出, クラスワイド情報度測定, データセットの難易度評価に有効であることを示す。
教師なしおよび教師なしの設定において、画像およびテキストデータにおけるLSIのこれらの機能を示す。
さらに,大規模モデルの学習に適したプローブおよび転送によりLSIを効率的に計算可能であることを示す。
関連論文リスト
- Improving Data Efficiency via Curating LLM-Driven Rating Systems [30.233724785974143]
データ選択のための多変量対応スコアキュレーション手法DS2を紹介する。
スコア遷移行列を通じてエラーパターンを体系的にモデル化することにより、DS2はLSMベースのスコアを補正し、選択したデータサンプルの多様性を促進する。
このアプローチは、キュレートされたサブセット(元のデータセットのわずか3.3%)が、さまざまなマシンアライメントベンチマークで、フルスケールデータセット(300kサンプル)より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T10:07:55Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。