論文の概要: Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data
- arxiv url: http://arxiv.org/abs/2312.12597v1
- Date: Tue, 19 Dec 2023 20:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:49:00.453064
- Title: Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data
- Title(参考訳): 不完全なトレーニングデータの変換と拡張によるロバスト機械学習
- Authors: Elliot Creager
- Abstract要約: この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
- 参考スコア(独自算出の注目度): 6.928276018602774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) is an expressive framework for turning data into
computer programs. Across many problem domains -- both in industry and policy
settings -- the types of computer programs needed for accurate prediction or
optimal control are difficult to write by hand. On the other hand, collecting
instances of desired system behavior may be relatively more feasible. This
makes ML broadly appealing, but also induces data sensitivities that often
manifest as unexpected failure modes during deployment. In this sense, the
training data available tend to be imperfect for the task at hand. This thesis
explores several data sensitivities of modern machine learning and how to
address them. We begin by discussing how to prevent ML from codifying prior
human discrimination measured in the training data, where we take a fair
representation learning approach. We then discuss the problem of learning from
data containing spurious features, which provide predictive fidelity during
training but are unreliable upon deployment. Here we observe that insofar as
standard training methods tend to learn such features, this propensity can be
leveraged to search for partitions of training data that expose this
inconsistency, ultimately promoting learning algorithms invariant to spurious
features. Finally, we turn our attention to reinforcement learning from data
with insufficient coverage over all possible states and actions. To address the
coverage issue, we discuss how causal priors can be used to model the
single-step dynamics of the setting where data are collected. This enables a
new type of data augmentation where observed trajectories are stitched together
to produce new but plausible counterfactual trajectories.
- Abstract(参考訳): 機械学習(ML)は、データをコンピュータプログラムに変換するための表現力のあるフレームワークである。
多くの問題領域で -- 産業と政策の設定において -- 正確な予測や最適な制御に必要なコンピュータプログラムの種類は、手で書くのが難しい。
一方、望ましいシステム動作のインスタンスの収集は、比較的実現可能かもしれない。
これによりMLは広くアピールするだけでなく、配置中に予期せぬ障害モードとして現れるデータ感度も引き起こす。
この意味で、利用可能なトレーニングデータは、手元にあるタスクに不完全である傾向がある。
この論文は、現代の機械学習のいくつかのデータ感度とそれに対応する方法を探る。
まず、機械学習がトレーニングデータで測定された事前の人間の識別を体系化するのを防ぐ方法を議論し、公平な表現学習アプローチをとる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
ここでは、標準的なトレーニング手法がそのような特徴を学習する傾向があるため、この傾向を利用して、この不整合を露呈するトレーニングデータの分割を探索し、最終的にはスプリアスな特徴に不変な学習アルゴリズムを促進する。
最後に、すべての可能な状態やアクションをカバーすることが不十分なデータからの強化学習に注意を向けます。
カバレッジ問題に対処するために、データを収集する設定の単一ステップのダイナミクスを因果前処理を用いてモデル化する方法について議論する。
これにより、観測された軌跡を縫合して、新しいがもっともらしい反事実軌跡を生成する新しいタイプのデータ拡張が可能になる。
関連論文リスト
- Corrective Machine Unlearning [23.969562017133367]
データの操作や誤操作を検出すると、開発者が何ができるのかを調査する。
「矯正機械学習」は、未知の操作による影響を緩和する問題である。
我々は、ゴールドスタンダード・リトレーニング・トゥ・スクラッチを含む既存の未学習手法のほとんどは、操作されたデータの大部分を識別する必要があることを発見した。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Task-Aware Machine Unlearning and Its Application in Load Forecasting [4.00606516946677]
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価することにより,性能認識アルゴリズムを提案する。
リアルな負荷データセットを用いて,線形,CNN,Mixerベースの負荷予測器上で,未学習アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-08-28T08:50:12Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and
Present [110.69157751789484]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Continuum: Simple Management of Complex Continual Learning Scenarios [1.52292571922932]
連続学習は、非IDデータの設定に特化した機械学習サブフィールドである。
継続的な学習の課題は、データ分散ドリフトに対処しながら、増え続ける知識を学習できるアルゴリズムを作ることである。
データローダの小さなエラーはアルゴリズムの結果に重大な影響を与える。
論文 参考訳(メタデータ) (2021-02-11T20:29:13Z) - From Learning to Meta-Learning: Reduced Training Overhead and Complexity
for Communication Systems [40.427909614453526]
機械学習手法は、データやアクティブな観察に基づいて、一定の学習手順を用いて、与えられたモデルクラスに置かれるように制約されたモデルのパラメータを適応する。
メタトレーニングによる帰納バイアスでは、トレーニングデータと/または時間の複雑さを減らして、マシンラーニングモデルのトレーニングを実行することができる。
本稿では,メタラーニングの高度導入と通信システムへの応用について述べる。
論文 参考訳(メタデータ) (2020-01-05T12:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。