論文の概要: Laplace Sample Information: Data Informativeness Through a Bayesian Lens
- arxiv url: http://arxiv.org/abs/2505.15303v1
- Date: Wed, 21 May 2025 09:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.41915
- Title: Laplace Sample Information: Data Informativeness Through a Bayesian Lens
- Title(参考訳): Laplace Sample Information:ベイズレンズによるデータのインフォームティビティ
- Authors: Johannes Kaiser, Kristian Schwethelm, Daniel Rueckert, Georgios Kaissis,
- Abstract要約: 本稿では,情報理論に基づくサンプル情報のLSI(Laplace Sample Information)尺度を提案する。
LSIは, 典型的データの順序付け, ラベルミス検出, クラスワイド情報度測定, データセットの難易度評価に有効であることを示す。
- 参考スコア(独自算出の注目度): 13.319283849678234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately estimating the informativeness of individual samples in a dataset is an important objective in deep learning, as it can guide sample selection, which can improve model efficiency and accuracy by removing redundant or potentially harmful samples. We propose Laplace Sample Information (LSI) measure of sample informativeness grounded in information theory widely applicable across model architectures and learning settings. LSI leverages a Bayesian approximation to the weight posterior and the KL divergence to measure the change in the parameter distribution induced by a sample of interest from the dataset. We experimentally show that LSI is effective in ordering the data with respect to typicality, detecting mislabeled samples, measuring class-wise informativeness, and assessing dataset difficulty. We demonstrate these capabilities of LSI on image and text data in supervised and unsupervised settings. Moreover, we show that LSI can be computed efficiently through probes and transfers well to the training of large models.
- Abstract(参考訳): データセット内の個々のサンプルの情報を正確に推定することは、サンプル選択をガイドできるため、深層学習において重要な目標であり、冗長または潜在的に有害なサンプルを除去することで、モデルの効率と精度を向上させることができる。
本稿では,モデルアーキテクチャや学習環境に広く適用可能な情報理論に基づくサンプル情報量のLaplace Sample Information (LSI) 尺度を提案する。
LSIは、重みの後部とKL分散に対するベイズ近似を利用して、データセットからの興味のサンプルによって誘導されるパラメータ分布の変化を測定する。
LSIは, 典型的データの順序付け, ラベルミス検出, クラスワイド情報度測定, データセットの難易度評価に有効であることを示す。
教師なしおよび教師なしの設定において、画像およびテキストデータにおけるLSIのこれらの機能を示す。
さらに,大規模モデルの学習に適したプローブおよび転送によりLSIを効率的に計算可能であることを示す。
関連論文リスト
- Improving Data Efficiency via Curating LLM-Driven Rating Systems [30.233724785974143]
データ選択のための多変量対応スコアキュレーション手法DS2を紹介する。
スコア遷移行列を通じてエラーパターンを体系的にモデル化することにより、DS2はLSMベースのスコアを補正し、選択したデータサンプルの多様性を促進する。
このアプローチは、キュレートされたサブセット(元のデータセットのわずか3.3%)が、さまざまなマシンアライメントベンチマークで、フルスケールデータセット(300kサンプル)より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T10:07:55Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Utilizing dataset affinity prediction in object detection to assess training data [4.508868068781057]
車両データセットのヘテロジニアスプールからサンプルを自動的に選択することで、いわゆるデータセット親和性スコアの利点を示す。
その結果、物体検出器は検出精度を損なうことなく、かなりスペーサーなトレーニングサンプルで訓練できることがわかった。
論文 参考訳(メタデータ) (2023-11-16T10:45:32Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Transfer Learning for High-dimensional Linear Regression: Prediction,
Estimation, and Minimax Optimality [6.230751621285322]
トランスラッソは、複数の異なる組織からのデータを補助サンプルとして組み込むことにより、標的組織における遺伝子発現予測の性能を向上させることが示されている。
論文 参考訳(メタデータ) (2020-06-18T14:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。