論文の概要: Distribution Learning with Valid Outputs Beyond the Worst-Case
- arxiv url: http://arxiv.org/abs/2410.16253v1
- Date: Mon, 21 Oct 2024 17:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:21.160453
- Title: Distribution Learning with Valid Outputs Beyond the Worst-Case
- Title(参考訳): 最悪のケースを超えた妥当性のある出力による分散学習
- Authors: Nick Rittler, Kamalika Chaudhuri,
- Abstract要約: 妥当性に制約のある分布学習は、学習された分布が、空間の無効な部分において、その質量の確率的に小さな部分を持つことを要求することによって、この問題に対処しようとする。
データ分散がモデルクラスに置かれ、ログロスが最小化されると、妥当性を保証するために必要なサンプルの数は、妥当性要求に弱いことが示される。
- 参考スコア(独自算出の注目度): 25.788559173418363
- License:
- Abstract: Generative models at times produce "invalid" outputs, such as images with generation artifacts and unnatural sounds. Validity-constrained distribution learning attempts to address this problem by requiring that the learned distribution have a provably small fraction of its mass in invalid parts of space -- something which standard loss minimization does not always ensure. To this end, a learner in this model can guide the learning via "validity queries", which allow it to ascertain the validity of individual examples. Prior work on this problem takes a worst-case stance, showing that proper learning requires an exponential number of validity queries, and demonstrating an improper algorithm which -- while generating guarantees in a wide-range of settings -- makes an atypical polynomial number of validity queries. In this work, we take a first step towards characterizing regimes where guaranteeing validity is easier than in the worst-case. We show that when the data distribution lies in the model class and the log-loss is minimized, the number of samples required to ensure validity has a weak dependence on the validity requirement. Additionally, we show that when the validity region belongs to a VC-class, a limited number of validity queries are often sufficient.
- Abstract(参考訳): 生成モデルは、生成アーティファクトを持つ画像や不自然な音など、時に「無効」な出力を生成する。
正当性に制約のある分布学習は、学習された分布が、空間の無効な部分の質量の確率的に小さな部分を持つことを要求することにより、この問題に対処しようとする。
この目的のために、このモデルの学習者は「妥当性クエリ」を通じて学習を誘導し、個々のサンプルの有効性を確認することができる。
この問題に関する以前の研究では、適切な学習には指数関数的な妥当性クエリが必要であることを示し、幅広い設定で保証を生成する一方で、非典型的な妥当性クエリ数を生成する不適切なアルゴリズムを実証している。
本研究は,有効性の保証が最悪の場合よりも容易な体制を特徴付けるための第一歩である。
データ分散がモデルクラスに置かれ、ログロスが最小化されると、妥当性を保証するために必要なサンプルの数は、妥当性要求に弱いことが示される。
さらに、妥当性領域がVCクラスに属する場合、限られた数の妥当性クエリが十分であることを示す。
関連論文リスト
- Quantifying Local Model Validity using Active Learning [2.8078480738404]
機械学習モデルの現実的な応用は、しばしば法律やポリシーに基づく規制の対象となる。
これらの規則のいくつかはモデルの妥当性を保証することを必要とし、すなわち近似誤差は閾値よりも小さい。
本稿では,モデル誤差を学習し,有効学習を通じて必要なデータ量を減らしながら,局所的妥当性推定値を取得することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:20:28Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z) - Leave Zero Out: Towards a No-Cross-Validation Approach for Model
Selection [21.06860861548758]
cross validation (cv) はモデル選択の主要な作業馬である。
CVは、限られたデータの一部が検証のために保たなければならないため、保守的にバイアスのある推定に苦しむ。
CVは、繰り返しの訓練手順のために、例えば、耐え難い時間を要する傾向があります。
論文 参考訳(メタデータ) (2020-12-24T16:11:53Z) - Identifying Wrongly Predicted Samples: A Method for Active Learning [6.976600214375139]
本稿では,不確実性を超えた単純なサンプル選択基準を提案する。
予測されたサンプルを正しく識別するために、最先端の結果とより良いレートを示す。
論文 参考訳(メタデータ) (2020-10-14T09:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。