論文の概要: Estimating Example Difficulty Using Variance of Gradients
- arxiv url: http://arxiv.org/abs/2008.11600v4
- Date: Tue, 21 Jun 2022 04:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:11:38.945192
- Title: Estimating Example Difficulty Using Variance of Gradients
- Title(参考訳): 勾配変動を用いたサンプル難易度の推定
- Authors: Chirag Agarwal, Daniel D'souza, Sara Hooker
- Abstract要約: VoG(Variance of Gradients)は、データのランク付けを難しくする指標である。
ここでは,VoGはデータのランク付けに難易度の高い指標であることを示す。
- 参考スコア(独自算出の注目度): 5.69361786082969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine learning, a question of great interest is understanding what
examples are challenging for a model to classify. Identifying atypical examples
ensures the safe deployment of models, isolates samples that require further
human inspection and provides interpretability into model behavior. In this
work, we propose Variance of Gradients (VoG) as a valuable and efficient metric
to rank data by difficulty and to surface a tractable subset of the most
challenging examples for human-in-the-loop auditing. We show that data points
with high VoG scores are far more difficult for the model to learn and
over-index on corrupted or memorized examples. Further, restricting the
evaluation to the test set instances with the lowest VoG improves the model's
generalization performance. Finally, we show that VoG is a valuable and
efficient ranking for out-of-distribution detection.
- Abstract(参考訳): 機械学習では、モデルを分類する上でどのような例が難しいのかを理解することが大きな関心事である。
非定型的な例の特定は、モデルの安全な配置を保証し、さらなる人間の検査を必要とするサンプルを分離し、モデルの振る舞いに解釈可能性を提供する。
本研究では,人間のループ監査における最も困難な事例の抽出可能なサブセットを提示するために,データのランク付けに難易度で効率的な指標として,VoG(Variance of Gradients)を提案する。
我々は,VoGスコアの高いデータポイントは,モデルが劣化あるいは記憶された例について学習し,過剰にインデクシングすることがはるかに困難であることを示す。
さらに、最も低いvogでテストセットインスタンスに評価を限定することで、モデルの一般化性能が向上する。
最後に,VoGは分布外検出に有用で効率的なランキングであることを示す。
関連論文リスト
- Hybrid Classification-Regression Adaptive Loss for Dense Object Detection [19.180514552400883]
HCRALと呼ばれるハイブリッド分類回帰適応損失を提案する。
本稿では,タスク間の監視,タスクの不整合に対処するためのResidual of Classification and IoU (RCI)モジュールと,各タスク内の難読化サンプルに焦点をあてる Conditioning Factor (CF) を紹介する。
また, 適応型トレーニングサンプル選択(EATSS)という新たな戦略を導入し, 分類と回帰の不整合を示すサンプルを新たに提供した。
論文 参考訳(メタデータ) (2024-08-30T10:31:39Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。