論文の概要: Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data
- arxiv url: http://arxiv.org/abs/2312.12597v1
- Date: Tue, 19 Dec 2023 20:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:49:00.453064
- Title: Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data
- Title(参考訳): 不完全なトレーニングデータの変換と拡張によるロバスト機械学習
- Authors: Elliot Creager
- Abstract要約: この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
- 参考スコア(独自算出の注目度): 6.928276018602774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) is an expressive framework for turning data into
computer programs. Across many problem domains -- both in industry and policy
settings -- the types of computer programs needed for accurate prediction or
optimal control are difficult to write by hand. On the other hand, collecting
instances of desired system behavior may be relatively more feasible. This
makes ML broadly appealing, but also induces data sensitivities that often
manifest as unexpected failure modes during deployment. In this sense, the
training data available tend to be imperfect for the task at hand. This thesis
explores several data sensitivities of modern machine learning and how to
address them. We begin by discussing how to prevent ML from codifying prior
human discrimination measured in the training data, where we take a fair
representation learning approach. We then discuss the problem of learning from
data containing spurious features, which provide predictive fidelity during
training but are unreliable upon deployment. Here we observe that insofar as
standard training methods tend to learn such features, this propensity can be
leveraged to search for partitions of training data that expose this
inconsistency, ultimately promoting learning algorithms invariant to spurious
features. Finally, we turn our attention to reinforcement learning from data
with insufficient coverage over all possible states and actions. To address the
coverage issue, we discuss how causal priors can be used to model the
single-step dynamics of the setting where data are collected. This enables a
new type of data augmentation where observed trajectories are stitched together
to produce new but plausible counterfactual trajectories.
- Abstract(参考訳): 機械学習(ML)は、データをコンピュータプログラムに変換するための表現力のあるフレームワークである。
多くの問題領域で -- 産業と政策の設定において -- 正確な予測や最適な制御に必要なコンピュータプログラムの種類は、手で書くのが難しい。
一方、望ましいシステム動作のインスタンスの収集は、比較的実現可能かもしれない。
これによりMLは広くアピールするだけでなく、配置中に予期せぬ障害モードとして現れるデータ感度も引き起こす。
この意味で、利用可能なトレーニングデータは、手元にあるタスクに不完全である傾向がある。
この論文は、現代の機械学習のいくつかのデータ感度とそれに対応する方法を探る。
まず、機械学習がトレーニングデータで測定された事前の人間の識別を体系化するのを防ぐ方法を議論し、公平な表現学習アプローチをとる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
ここでは、標準的なトレーニング手法がそのような特徴を学習する傾向があるため、この傾向を利用して、この不整合を露呈するトレーニングデータの分割を探索し、最終的にはスプリアスな特徴に不変な学習アルゴリズムを促進する。
最後に、すべての可能な状態やアクションをカバーすることが不十分なデータからの強化学習に注意を向けます。
カバレッジ問題に対処するために、データを収集する設定の単一ステップのダイナミクスを因果前処理を用いてモデル化する方法について議論する。
これにより、観測された軌跡を縫合して、新しいがもっともらしい反事実軌跡を生成する新しいタイプのデータ拡張が可能になる。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - How to unlearn a learned Machine Learning model ? [0.0]
機械学習モデルを学習し、その能力を視覚化するためのエレガントなアルゴリズムを提示します。
基礎となる数学的理論を解明し、所望のデータに対する未学習モデルの性能と望ましくないデータに対する無知の両方を評価するための具体的な指標を確立する。
論文 参考訳(メタデータ) (2024-10-13T17:38:09Z) - Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting [4.220336689294245]
近年の研究では、トレーニングされたモデルを忘れるべきデータを学習させるために、さまざまな機械学習アルゴリズムが提案されている。
本稿では,相関崩壊を防止しつつ,効率よくインスタンスを忘れる新しい手法であるDLFDを提案する。
提案手法はデータサンプルを合成し,生成したデータ分布が特徴空間で忘れられているサンプルの分布から遠ざかるようにする。
論文 参考訳(メタデータ) (2024-09-23T06:51:10Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。
削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。
選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - Task-Aware Machine Unlearning and Its Application in Load Forecasting [4.00606516946677]
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価することにより,性能認識アルゴリズムを提案する。
リアルな負荷データセットを用いて,線形,CNN,Mixerベースの負荷予測器上で,未学習アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-08-28T08:50:12Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - From Learning to Meta-Learning: Reduced Training Overhead and Complexity
for Communication Systems [40.427909614453526]
機械学習手法は、データやアクティブな観察に基づいて、一定の学習手順を用いて、与えられたモデルクラスに置かれるように制約されたモデルのパラメータを適応する。
メタトレーニングによる帰納バイアスでは、トレーニングデータと/または時間の複雑さを減らして、マシンラーニングモデルのトレーニングを実行することができる。
本稿では,メタラーニングの高度導入と通信システムへの応用について述べる。
論文 参考訳(メタデータ) (2020-01-05T12:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。