論文の概要: Clarify: Improving Model Robustness With Natural Language Corrections
- arxiv url: http://arxiv.org/abs/2402.03715v1
- Date: Tue, 6 Feb 2024 05:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:33:08.426274
- Title: Clarify: Improving Model Robustness With Natural Language Corrections
- Title(参考訳): Clarify: 自然言語補正によるモデルロバストネスの改善
- Authors: Yoonho Lee, Michelle S. Lam, Helena Vasconcelos, Michael S. Bernstein,
Chelsea Finn
- Abstract要約: 教師付き学習では、モデルは静的データセットから相関を抽出するために訓練される。
これはしばしば、高レベルの誤解に依存するモデルにつながる。
モデル誤解をインタラクティブに修正する新しいインターフェースと方法であるClarifyを紹介した。
- 参考スコア(独自算出の注目度): 63.342630414000006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In supervised learning, models are trained to extract correlations from a
static dataset. This often leads to models that rely on high-level
misconceptions. To prevent such misconceptions, we must necessarily provide
additional information beyond the training data. Existing methods incorporate
forms of additional instance-level supervision, such as labels for spurious
features or additional labeled data from a balanced distribution. Such
strategies can become prohibitively costly for large-scale datasets since they
require additional annotation at a scale close to the original training data.
We hypothesize that targeted natural language feedback about a model's
misconceptions is a more efficient form of additional supervision. We introduce
Clarify, a novel interface and method for interactively correcting model
misconceptions. Through Clarify, users need only provide a short text
description to describe a model's consistent failure patterns. Then, in an
entirely automated way, we use such descriptions to improve the training
process by reweighting the training data or gathering additional targeted data.
Our user studies show that non-expert users can successfully describe model
misconceptions via Clarify, improving worst-group accuracy by an average of
17.1% in two datasets. Additionally, we use Clarify to find and rectify 31
novel hard subpopulations in the ImageNet dataset, improving minority-split
accuracy from 21.1% to 28.7%.
- Abstract(参考訳): 教師付き学習では、モデルは静的データセットから相関を抽出するために訓練される。
これはしばしばハイレベルな誤解に依存するモデルにつながる。
このような誤解を防ぐためには、トレーニングデータ以外の追加情報を提供しなければならない。
既存の手法には、スパイラルな特徴のラベルやバランスの取れた分布からのラベル付きデータなど、追加のインスタンスレベルの監視形式が組み込まれている。
このような戦略は、元のトレーニングデータに近いスケールで追加のアノテーションを必要とするため、大規模なデータセットでは、非常にコストがかかる可能性がある。
モデルの誤解に対する目標とする自然言語フィードバックは、さらなる監視のより効率的な形式である、という仮説を立てる。
モデル誤解をインタラクティブに修正する新しいインターフェースと方法であるClarifyを紹介した。
Clarifyを通じて、モデルの一貫性のある障害パターンを記述するための短いテキスト記述のみを提供する必要がある。
そして、完全に自動化された方法で、トレーニングデータを再重み付けしたり、追加のターゲットデータを集めることで、トレーニングプロセスを改善するためにこのような記述を使用します。
ユーザ調査の結果,非熟練ユーザは2つのデータセットにおいて,最悪のグループ精度を平均17.1%向上させることで,モデルの誤解をうまく記述できることがわかった。
さらに,imagenetデータセットにおける31個の新規ハードサブポピュレーションの発見と修正を行い,マイノリティ分散精度を21.1%から28.7%に向上させた。
関連論文リスト
- Robust Data Pruning under Label Noise via Maximizing Re-labeling
Accuracy [34.02350195269502]
我々は再ラベルでデータプルーニングの問題を定式化する。
そこで本研究では,すべてのトレーニング例の局所的信頼度を最大化する,新しいデータプルーニングアルゴリズムPrune4Relを提案する。
論文 参考訳(メタデータ) (2023-11-02T05:40:26Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - CLIP: Train Faster with Less Data [3.2575001434344286]
ディープラーニングモデルは、トレーニングに膨大な量のデータを必要とします。
近年、機械学習はモデル中心のアプローチからデータ中心のアプローチへとシフトしている。
CLIP(CLIP, Curriculum Learning with Iterative data Pruning)を提案する。
論文 参考訳(メタデータ) (2022-12-02T21:29:48Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - BiFair: Training Fair Models with Bilevel Optimization [8.2509884277533]
我々は,ユーティリティの最小化と公正な関心の喪失を両立させる,BiFairという新しいトレーニングアルゴリズムを開発した。
我々のアルゴリズムは、常により良い性能、すなわち、与えられた公正度メトリックのより優れた値、あるいはより高い精度で到達する。
論文 参考訳(メタデータ) (2021-06-03T22:36:17Z) - Whitening and second order optimization both make information in the
dataset unusable during training, and can reduce or prevent generalization [50.53690793828442]
データの白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。
一般モデルのクラス、すなわち、完全に連結された第一層を持つモデルに対して、この行列に含まれる情報が一般化に使用できる唯一の情報であることを示す。
論文 参考訳(メタデータ) (2020-08-17T18:00:05Z) - Learning from Imperfect Annotations [15.306536555936692]
現在、多くの機械学習システムは、大量の人間の注釈付きデータに基づいて訓練されている。
モデルトレーニングとアグリゲーションステップをマージすることを可能にする新しいエンドツーエンドフレームワークを提案する。
アノテーションを集約する現在の最先端アプローチに比べて、精度が最大25%向上していることを示す。
論文 参考訳(メタデータ) (2020-04-07T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。