論文の概要: Toward Learning Human-aligned Cross-domain Robust Models by Countering
Misaligned Features
- arxiv url: http://arxiv.org/abs/2111.03740v1
- Date: Fri, 5 Nov 2021 22:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 16:01:59.720743
- Title: Toward Learning Human-aligned Cross-domain Robust Models by Countering
Misaligned Features
- Title(参考訳): ヒューマンアライメントによるクロスドメインロバストモデル学習に向けて
- Authors: Haohan Wang, Zeyi Huang, Hanlin Zhang, Eric Xing
- Abstract要約: 機械学習は、i.dデータよりも顕著な予測精度を示しているが、他の分布のデータでテストすると、その精度は低下することが多い。
本稿では、この精度低下の背景にある理由が、データアノテータの考え方とよく一致しない特徴に対するモデルの依存であることを前提として、この問題を別の視点で考察することを目的とする。
本稿では,従来の一般化誤差をラベルとどのように関連付けられているかという知識を活かして,この設定のための新しい一般化誤差に拡張する。
- 参考スコア(独自算出の注目度): 17.57706440574503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning has demonstrated remarkable prediction accuracy over i.i.d
data, but the accuracy often drops when tested with data from another
distribution. In this paper, we aim to offer another view of this problem in a
perspective assuming the reason behind this accuracy drop is the reliance of
models on the features that are not aligned well with how a data annotator
considers similar across these two datasets. We refer to these features as
misaligned features. We extend the conventional generalization error bound to a
new one for this setup with the knowledge of how the misaligned features are
associated with the label. Our analysis offers a set of techniques for this
problem, and these techniques are naturally linked to many previous methods in
robust machine learning literature. We also compared the empirical strength of
these methods demonstrated the performance when these previous techniques are
combined.
- Abstract(参考訳): 機械学習は、i.dデータよりも顕著な予測精度を示しているが、他の分布のデータでテストすると、精度は低下することが多い。
本稿では、この精度低下の背景にある理由は、データアノテータがこれらの2つのデータセット間でどのように類似しているかに一致しない機能に対するモデルの依存である、という観点から、この問題に対する別の見解を提供する。
これらの機能を不整合機能と呼んでいる。
従来の一般化誤差を新しいものに拡張し,ラベルにミスアライメント機能がどのように関連付けられているかを知る。
我々の分析はこの問題に対する一連の技術を提供しており、これらの技術は頑健な機械学習文学における多くの従来の手法と自然に関連付けられている。
また,これらの手法が組み合わさった場合の性能を実証した経験的強度を比較検討した。
関連論文リスト
- The Star Geometry of Critic-Based Regularizer Learning [2.2530496464901106]
変分正規化は統計的推論タスクと逆問題の解法である。
近年の課題依存型レギュレータの学習は, 測定値と地上データとを統合して行われている。
このプロセスを通して学んだ正規化器の構造と、それが2つのデータ分布とどのように関係するかについては、ほとんど理論がない。
論文 参考訳(メタデータ) (2024-08-29T18:34:59Z) - Debiasing Machine Unlearning with Counterfactual Examples [31.931056076782202]
我々は、未学習プロセスの背後にある因果要因を分析し、データレベルとアルゴリズムレベルでバイアスを軽減する。
バイアスのあるデータセットによって、忘れるべき知識が消去される、介入に基づくアプローチを導入する。
本手法は,評価指標に基づく既存の機械学習ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-04-24T09:33:10Z) - Instance-Specific Asymmetric Sensitivity in Differential Privacy [2.855485723554975]
我々は指数的メカニズムを通して出力を選択するためのパラダイムを提供する以前の作業の上に構築する。
我々のフレームワークは、近接度メートル法をわずかに修正し、スパースベクトル技法の単純かつ効率的な応用を提供する。
論文 参考訳(メタデータ) (2023-11-02T05:01:45Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Theoretical bounds on estimation error for meta-learning [29.288915378272375]
複数の情報源のデータに基づいて学習し、新しいデータでテストしたアルゴリズムに対して、最小収束率に関する新しい情報理論の下限を提供する。
我々の境界は、データソース間で共有される情報に直感的に依存し、任意のアルゴリズムでこの設定で学習することの難しさを特徴づけます。
論文 参考訳(メタデータ) (2020-10-14T14:57:21Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。