論文の概要: Debugging using Orthogonal Gradient Descent
- arxiv url: http://arxiv.org/abs/2206.08489v1
- Date: Fri, 17 Jun 2022 00:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:00:15.739081
- Title: Debugging using Orthogonal Gradient Descent
- Title(参考訳): 直交勾配降下を用いたデバッギング
- Authors: Narsimha Chilkuri, Chris Eliasmith
- Abstract要約: 部分的に欠陥があるトレーニングされたモデルを考えると、モデルをスクラッチからトレーニングすることなく、その振る舞いを修正できますか?
言い換えれば、ニューラルネットワークは、数学的モデルと標準的なコンピュータコードのバグに対処する方法に似ていますか?
- 参考スコア(独自算出の注目度): 7.766921168069532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report we consider the following problem: Given a trained model that
is partially faulty, can we correct its behaviour without having to train the
model from scratch? In other words, can we ``debug" neural networks similar to
how we address bugs in our mathematical models and standard computer code. We
base our approach on the hypothesis that debugging can be treated as a two-task
continual learning problem. In particular, we employ a modified version of a
continual learning algorithm called Orthogonal Gradient Descent (OGD) to
demonstrate, via two simple experiments on the MNIST dataset, that we can
in-fact \textit{unlearn} the undesirable behaviour while retaining the general
performance of the model, and we can additionally \textit{relearn} the
appropriate behaviour, both without having to train the model from scratch.
- Abstract(参考訳): 部分的に欠陥のあるトレーニング済みのモデルを考えると、モデルをスクラッチからトレーニングすることなく、その振る舞いを修正できますか?
言い換えれば、ニューラルネットワークの‘デバッグ’は、数学的モデルや標準的なコンピュータコードにおけるバグに対処する方法に似ていますか?
我々は,デバッグを2タスク連続学習問題として扱うことができるという仮説に基づく。
特に,直交勾配降下 (ogd) と呼ばれる連続学習アルゴリズムの修正版を用いて,mnistデータセットの2つの単純な実験を通じて,モデルの一般的な性能を維持しつつ,望ましくない振る舞いを具体化できることを実証し,さらに,モデルをスクラッチからトレーニングすることなく,適切な振る舞いを \textit{relearn} することができる。
関連論文リスト
- Provable unlearning in topic modeling and downstream tasks [36.571324268874264]
アンラーニングの保証は、しばしば教師付き学習設定に限られる。
我々は、事前学習と微調整のパラダイムにおいて、初となるアンラーニングの理論的保証を提供する。
我々は、特定のタスクに微調整されたモデルから事前学習データを容易に解放できることを示し、ベースモデルを変更することなく、このデータを解放できることを示した。
論文 参考訳(メタデータ) (2024-11-19T16:04:31Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Capturing the learning curves of generic features maps for realistic
data sets with a teacher-student model [24.679669970832396]
教師学生モデルは、高次元教師付き学習タスクの典型的なケースパフォーマンスをクローズドな形で研究できる強力なフレームワークを提供する。
この設定では、ラベルはデータに割り当てられ、しばしばガウスのi.i.dとされる。
-教師モデルにより、ラベルを生成するパラメータの復元において、学生モデルの典型的な性能を特徴付けることが目的である。
論文 参考訳(メタデータ) (2021-02-16T12:49:15Z) - Understanding the Failure Modes of Out-of-Distribution Generalization [35.00563456450452]
経験的研究は、機械学習モデルは、トレーニング時間にのみラベルと急激な相関関係を持つ可能性のある背景のような特徴にしばしば依存していることを示唆している。
本研究は,学習が容易なタスクにおいても,モデルがこのように失敗する理由を説明することによって,この行動を引き起こす基本的な要因を同定する。
論文 参考訳(メタデータ) (2020-10-29T17:19:03Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Query Training: Learning a Worse Model to Infer Better Marginals in
Undirected Graphical Models with Hidden Variables [11.985433487639403]
確率的グラフィカルモデル(PGM)は、柔軟な方法でクエリできる知識のコンパクトな表現を提供する。
我々は,PGMを学習するメカニズムであるクエリトレーニング(QT)を導入し,それと組み合わせる近似推論アルゴリズムに最適化する。
実験により,QTを用いて隠れ変数を持つ8連結グリッドマルコフランダム場を学習できることが実証された。
論文 参考訳(メタデータ) (2020-06-11T20:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。