論文の概要: Learning to Abstain From Uninformative Data
- arxiv url: http://arxiv.org/abs/2309.14240v1
- Date: Mon, 25 Sep 2023 15:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 14:48:31.879554
- Title: Learning to Abstain From Uninformative Data
- Title(参考訳): 不正なデータから遠ざかる学習
- Authors: Yikai Zhang, Songzhu Zheng, Mina Dalirrooyfard, Pengxiang Wu, Anderson
Schneider, Anant Raj, Yuriy Nevmyvaka, Chao Chen
- Abstract要約: 本研究では,一般的なノイズ発生過程下での学習と行動の問題について検討する。
この問題において、データ分布はラベルに高ノイズの非形式的なサンプルのかなりの割合を有する。
本稿では,選択学習理論に着想を得た損失を生かして,これらの条件下での学習に新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 20.132146513548843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning and decision-making in domains with naturally high noise-to-signal
ratio, such as Finance or Healthcare, is often challenging, while the stakes
are very high. In this paper, we study the problem of learning and acting under
a general noisy generative process. In this problem, the data distribution has
a significant proportion of uninformative samples with high noise in the label,
while part of the data contains useful information represented by low label
noise. This dichotomy is present during both training and inference, which
requires the proper handling of uninformative data during both training and
testing. We propose a novel approach to learning under these conditions via a
loss inspired by the selective learning theory. By minimizing this loss, the
model is guaranteed to make a near-optimal decision by distinguishing
informative data from uninformative data and making predictions. We build upon
the strength of our theoretical guarantees by describing an iterative
algorithm, which jointly optimizes both a predictor and a selector, and
evaluates its empirical performance in a variety of settings.
- Abstract(参考訳): 自然にノイズ/信号比が高いドメイン(例えば、金融やヘルスケアなど)での学習と意思決定は、しばしば困難である。
本稿では,一般の騒音発生過程における学習と行動の問題について検討する。
この問題において,データ分布はラベル中のノイズの多い不均一なサンプルの割合がかなり高いのに対して,データの一部にはラベルノイズを表す有用な情報が含まれている。
この二分法は、トレーニングと推論の両方の間に存在し、トレーニングとテストの両方において、不正なデータの適切な処理を必要とする。
選択学習理論に触発された損失を通じて,これらの条件下で学習する新しいアプローチを提案する。
この損失を最小化することにより、情報的データを非形式的データと区別し、予測を行うことにより、ほぼ最適決定が保証される。
予測器とセレクタの両方を共同で最適化した反復アルゴリズムを記述し,その経験的性能を様々な設定で評価することで,理論的な保証の強みを生かした。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Prioritizing Informative Features and Examples for Deep Learning from Noisy Data [4.741012804505562]
本稿では,開発プロセスの各段階を強化するために,情報的特徴や事例を優先するシステムフレームワークを提案する。
まず,目的課題の解決に固有の情報的特徴のみを,補助的なアウト・オブ・ディストリビューションデータを用いて抽出する手法を提案する。
次に、能動学習のラベル付けコストを削減するために、ラベルなしノイズデータから情報的サンプルを優先する手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T07:15:35Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。