論文の概要: RealPatch: A Statistical Matching Framework for Model Patching with Real
Samples
- arxiv url: http://arxiv.org/abs/2208.02192v1
- Date: Wed, 3 Aug 2022 16:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:53:15.177842
- Title: RealPatch: A Statistical Matching Framework for Model Patching with Real
Samples
- Title(参考訳): RealPatch: 実例によるモデルパッチのための統計的マッチングフレームワーク
- Authors: Sara Romiti, Christopher Inskip, Viktoriia Sharmanska, Novi Quadrianto
- Abstract要約: RealPatchは、統計マッチングに基づいた、よりシンプルで、より高速で、よりデータ効率の高いデータ拡張のためのフレームワークである。
この結果から,RealPatchは,モデルリークを低減し,高ユーティリティを維持するとともに,データセットリークを効果的に除去できることが示唆された。
- 参考スコア(独自算出の注目度): 6.245453620070586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning classifiers are typically trained to minimise the average
error across a dataset. Unfortunately, in practice, this process often exploits
spurious correlations caused by subgroup imbalance within the training data,
resulting in high average performance but highly variable performance across
subgroups. Recent work to address this problem proposes model patching with
CAMEL. This previous approach uses generative adversarial networks to perform
intra-class inter-subgroup data augmentations, requiring (a) the training of a
number of computationally expensive models and (b) sufficient quality of
model's synthetic outputs for the given domain. In this work, we propose
RealPatch, a framework for simpler, faster, and more data-efficient data
augmentation based on statistical matching. Our framework performs model
patching by augmenting a dataset with real samples, mitigating the need to
train generative models for the target task. We demonstrate the effectiveness
of RealPatch on three benchmark datasets, CelebA, Waterbirds and a subset of
iWildCam, showing improvements in worst-case subgroup performance and in
subgroup performance gap in binary classification. Furthermore, we conduct
experiments with the imSitu dataset with 211 classes, a setting where
generative model-based patching such as CAMEL is impractical. We show that
RealPatch can successfully eliminate dataset leakage while reducing model
leakage and maintaining high utility. The code for RealPatch can be found at
https://github.com/wearepal/RealPatch.
- Abstract(参考訳): 機械学習の分類器は通常、データセットの平均エラーを最小化するために訓練される。
残念なことに、このプロセスはトレーニングデータ内のサブグループ不均衡によって引き起こされる急激な相関を利用しており、結果として、サブグループ全体の平均性能は高いが、高い変動性能が得られる。
この問題に対処する最近の研究は、CAMELによるモデルパッチを提案する。
この以前のアプローチでは、生成型adversarial networkを使用してクラス内サブグループ間データ拡張を実行する。
(a)多くの計算コストの高いモデルの訓練、及び
(b)与えられた領域に対するモデルの合成出力の十分な品質。
本研究では,統計的マッチングに基づくよりシンプルで高速でデータ効率の高いデータ拡張のためのフレームワークであるRealPatchを提案する。
我々のフレームワークは、実際のサンプルでデータセットを増強し、ターゲットタスクのための生成モデルをトレーニングする必要性を軽減し、モデルパッチを実行する。
本稿では,CelebA,Waterbirds,およびiWildCamのサブセットである3つのベンチマークデータセットに対するRealPatchの有効性を示す。
さらに,CAMELのような生成モデルベースのパッチが実用的でない環境で,ImSituデータセットを211クラスで実験する。
realpatchは,モデルのリークを低減し,高ユーティリティを維持しつつ,データセットのリークを効果的に除去できることを示す。
RealPatchのコードはhttps://github.com/wearepal/RealPatchにある。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Impact of PolSAR pre-processing and balancing methods on complex-valued
neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。
6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。
本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-10-28T12:49:43Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Machine Learning Techniques to Construct Patched Analog Ensembles for
Data Assimilation [0.0]
本稿では,cAnEnOIの機械学習コンポーネントに対する一般および変分オートエンコーダについて検討する。
グローバル空間領域を消化可能なチャンクに分割するパッチ法を提案する。
この新しいアルゴリズムを1Dトイモデルでテストすると、より大きなパッチサイズにより、正確な生成モデルのトレーニングが困難になることがわかります。
論文 参考訳(メタデータ) (2021-02-27T20:47:27Z) - Model Patching: Closing the Subgroup Performance Gap with Data
Augmentation [50.35010342284508]
機械学習モデルの堅牢性を改善するためのフレームワークであるモデルパッチを導入する。
モデルパッチは、サブグループの違いに対してモデルを不変にすることを奨励し、サブグループによって共有されるクラス情報にフォーカスする。
CAMELは,(1)CycleGANを用いてクラス内およびサブグループ間拡張を学習し,(2)理論上動機付けられた整合性正規化器を用いてサブグループ性能のバランスをとる。
CAMELの有効性を3つのベンチマークデータセットで示し、最高のベースラインに対して、ロバストなエラーを最大33%削減した。
論文 参考訳(メタデータ) (2020-08-15T20:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。