論文の概要: Trustworthy Machine Learning via Memorization and the Granular Long-Tail: A Survey on Interactions, Tradeoffs, and Beyond
- arxiv url: http://arxiv.org/abs/2503.07501v1
- Date: Mon, 10 Mar 2025 16:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:10.394366
- Title: Trustworthy Machine Learning via Memorization and the Granular Long-Tail: A Survey on Interactions, Tradeoffs, and Beyond
- Title(参考訳): 記憶と粒度のロングテールによる信頼できる機械学習:インタラクション,トレードオフ,その他に関する調査
- Authors: Qiongxiu Li, Xiaoyu Luo, Yiyi Chen, Johannes Bjerva,
- Abstract要約: 我々は、信頼に値する機械学習(ML)に関する既存の研究と記憶の役割について調査する。
私たちは3段階のロングテールの粒度(クラス不均衡、非定型性、ノイズ)を定式化し、現在のフレームワークがこれらのレベルをどう悪用しているかを明らかにします。
- 参考スコア(独自算出の注目度): 4.5689379467873925
- License:
- Abstract: The role of memorization in machine learning (ML) has garnered significant attention, particularly as modern models are empirically observed to memorize fragments of training data. Previous theoretical analyses, such as Feldman's seminal work, attribute memorization to the prevalence of long-tail distributions in training data, proving it unavoidable for samples that lie in the tail of the distribution. However, the intersection of memorization and trustworthy ML research reveals critical gaps. While prior research in memorization in trustworthy ML has solely focused on class imbalance, recent work starts to differentiate class-level rarity from atypical samples, which are valid and rare intra-class instances. However, a critical research gap remains: current frameworks conflate atypical samples with noisy and erroneous data, neglecting their divergent impacts on fairness, robustness, and privacy. In this work, we conduct a thorough survey of existing research and their findings on trustworthy ML and the role of memorization. More and beyond, we identify and highlight uncharted gaps and propose new revenues in this research direction. Since existing theoretical and empirical analyses lack the nuances to disentangle memorization's duality as both a necessity and a liability, we formalize three-level long-tail granularity - class imbalance, atypicality, and noise - to reveal how current frameworks misapply these levels, perpetuating flawed solutions. By systematizing this granularity, we draw a roadmap for future research. Trustworthy ML must reconcile the nuanced trade-offs between memorizing atypicality for fairness assurance and suppressing noise for robustness and privacy guarantee. Redefining memorization via this granularity reshapes the theoretical foundation for trustworthy ML, and further affords an empirical prerequisite for models that align performance with societal trust.
- Abstract(参考訳): 機械学習(ML)における記憶の役割は、特に現代のモデルはトレーニングデータの断片を記憶するために経験的に観察されているため、大きな注目を集めている。
フェルドマンの独創的な研究のような以前の理論的分析は、トレーニングデータにおける長い尾の分布の頻度を記憶し、分布の尾にあるサンプルには避けられないことを証明している。
しかし、記憶と信頼できるML研究の交わりは、重大なギャップを明らかにしている。
信頼に値するMLの記憶に関する以前の研究は、クラス不均衡にのみ焦点を合わせてきたが、最近の研究は、クラスレベルのラリティを非定型的なサンプルと区別し始めており、これは有効で希少なクラス内インスタンスである。
しかし、重要な研究のギャップは残る: 現行のフレームワークは、ノイズと誤ったデータで非定型的なサンプルを分割し、公平性、堅牢性、プライバシに対する彼らの相違した影響を無視している。
本研究は,既存の研究の徹底的な調査と,信頼性の高いMLに関する研究成果とその記憶の役割について報告する。
ますます、未知のギャップを特定して強調し、この研究の方向性に新たな収益を提案する。
既存の理論的および経験的分析では、記憶の双対性を必要と責任の両方として切り離すためのニュアンスを欠いているため、我々は3段階の長い尾の粒度(クラス不均衡、非定型性、ノイズ)を定式化し、現在のフレームワークがこれらのレベルを誤って適用し、欠陥のあるソリューションを持続させる方法を明らかにする。
この粒度を体系化することで、将来の研究のロードマップを描きます。
信頼できるMLは、公正性の保証のための非定型性を記憶することと、堅牢性とプライバシーの保証のためのノイズを抑制することの間の、曖昧なトレードオフを解決しなければならない。
この粒度を通した記憶の再定義は、信頼できるMLの理論的基盤を再考し、パフォーマンスと社会的信頼を整合させるモデルに実証的な前提条件を与える。
関連論文リスト
- Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Skewed Memorization in Large Language Models: Quantification and Decomposition [23.097554469918357]
LLM(Large Language Models)のメモリ化は、プライバシとセキュリティのリスクを引き起こす。
本稿では,教師付き微調整(SFT)の記憶について検討し,トレーニング期間,データセットサイズ,サンプル間類似度との関係について検討する。
論文 参考訳(メタデータ) (2025-02-03T09:23:53Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Between Randomness and Arbitrariness: Some Lessons for Reliable Machine Learning at Scale [2.50194939587674]
dissertation: 信頼性を犠牲にすることなくスケーラビリティを実現するために、MLにおける偏在性のソースの定量化と緩和、不確実性推定と最適化アルゴリズムのランダム性。
論文は、機械学習の信頼性測定に関する研究が法と政策の研究と密接に結びついていることの例による実証的な証明として機能する。
論文 参考訳(メタデータ) (2024-06-13T19:29:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Memory Consistency Guided Divide-and-Conquer Learning for Generalized
Category Discovery [56.172872410834664]
一般カテゴリー発見(GCD)は、半教師付き学習のより現実的で挑戦的な設定に対処することを目的としている。
メモリ一貫性を誘導する分枝・分枝学習フレームワーク(MCDL)を提案する。
本手法は,画像認識の目に見えるクラスと見えないクラスの両方において,最先端のモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-24T09:39:45Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Inference for Interpretable Machine Learning: Fast, Model-Agnostic
Confidence Intervals for Feature Importance [1.2891210250935146]
我々は、機械学習の解釈の広く使われている形態、すなわち特徴の重要性に対する信頼区間を発達させる。
ランダムな観察とミニパッチアンサンブルと呼ばれる特徴サブサンプリングの形式を活用することで実現している。
推論に必要な計算が、アンサンブル学習プロセスの一部としてほぼ無償で提供されるため、私たちのアプローチは高速です。
論文 参考訳(メタデータ) (2022-06-05T03:14:48Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。