論文の概要: Attributing Data for Sharpness-Aware Minimization
- arxiv url: http://arxiv.org/abs/2507.04059v1
- Date: Sat, 05 Jul 2025 14:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.996597
- Title: Attributing Data for Sharpness-Aware Minimization
- Title(参考訳): シャープネス認識最小化のための属性データ
- Authors: Chenyang Ren, Yifan Jia, Huanyi Xie, Zhaobin Xu, Tianxing Wei, Liangyu Wang, Lijie Hu, Di Wang,
- Abstract要約: シャープネスを意識した最小化(SAM)は、損失幾何学と一般化をリンクすることで、大規模モデルトレーニングにおける一般化を改善する。
しかし、誤ったラベル付きノイズデータやプライバシー上の懸念といった課題が大きな問題として浮上している。
我々はSAMのための2つの革新的なデータ評価手法を開発し、それぞれ異なるシナリオでユニークな利点を提供している。
- 参考スコア(独自算出の注目度): 4.924675851574611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharpness-aware Minimization (SAM) improves generalization in large-scale model training by linking loss landscape geometry to generalization. However, challenges such as mislabeled noisy data and privacy concerns have emerged as significant issues. Data attribution, which identifies the contributions of specific training samples, offers a promising solution. However, directly rendering existing data influence evaluation tools such as influence functions (IF) to SAM will be inapplicable or inaccurate as SAM utilizes an inner loop to find model perturbations that maximize loss, which the outer loop then minimizes, resulting in a doubled computational structure. Additionally, this bilevel structure complicates the modeling of data influence on the parameters. In this paper, based on the IF, we develop two innovative data valuation methods for SAM, each offering unique benefits in different scenarios: the Hessian-based IF and the Gradient Trajectory-based IF. The first one provides a comprehensive estimation of data influence using a closed-form measure that relies only on the trained model weights. In contrast, the other IF for SAM utilizes gradient trajectory information during training for more accurate and efficient data assessment. Extensive experiments demonstrate their effectiveness in data evaluation and parameter tuning, with applications in identifying mislabeled data, model editing, and enhancing interpretability.
- Abstract(参考訳): シャープネスを意識した最小化(SAM)は、損失ランドスケープ幾何学と一般化をリンクすることで、大規模モデルトレーニングにおける一般化を改善する。
しかし、誤ったラベル付きノイズデータやプライバシー上の懸念といった課題が大きな問題として浮上している。
特定のトレーニングサンプルのコントリビューションを特定するデータ属性は、有望なソリューションを提供する。
しかし、インフルエンス関数(IF)などの既存のデータ影響評価ツールをSAMに直接レンダリングすることは、SAMが内部ループを使用して損失を最大化するモデル摂動を見つけ、外ループが最小化し、計算構造が2倍になるため、適用不可能または不正確なものになる。
さらに、この双レベル構造は、パラメータに影響を及ぼすデータのモデリングを複雑にします。
本稿では,IFに基づいて,ヘッセン系IFとグラディエント・トラジェクトリ系IFという,異なるシナリオに固有の利点をもたらすSAMの2つの革新的なデータ評価手法を開発する。
1つ目は、訓練されたモデルの重みのみに依存するクローズドフォーム測度を使用して、データの影響を包括的に推定するものである。
これとは対照的に、SAMの他のIFは、トレーニング中の勾配軌道情報を利用して、より正確で効率的なデータアセスメントを行う。
広範囲にわたる実験は、データ評価とパラメータチューニングにおけるその効果を実証し、誤ラベル付きデータの識別、モデル編集、解釈可能性の向上に応用した。
関連論文リスト
- Model State Arithmetic for Machine Unlearning [43.773053236733425]
我々は,データポイントの影響を推定し,解消するための新しいアルゴリズムであるMSAを提案する。
実験の結果、MSAは既存の機械学習アルゴリズムよりずっと優れています。
論文 参考訳(メタデータ) (2025-06-26T02:16:16Z) - CALF: A Conditionally Adaptive Loss Function to Mitigate Class-Imbalanced Segmentation [0.2902243522110345]
不均衡データセットは、医学診断のためのディープラーニング(DL)モデルのトレーニングにおいて課題となる。
本稿では,DLトレーニングにおける不均衡データセットの条件を満たすために,新しい,統計的に駆動された条件適応型損失関数(CALF)を提案する。
論文 参考訳(メタデータ) (2025-04-06T12:03:33Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - An empirical study of the effect of background data size on the
stability of SHapley Additive exPlanations (SHAP) for deep learning models [14.65535880059975]
ランダムサンプリングから得られた異なる背景データセットを使用すると,SHAP値と変数ランキングが変動することを示す。
以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。
論文 参考訳(メタデータ) (2022-04-24T20:15:34Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。