論文の概要: A sub-sampling algorithm preventing outliers
- arxiv url: http://arxiv.org/abs/2208.06218v1
- Date: Fri, 12 Aug 2022 11:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:43:12.849886
- Title: A sub-sampling algorithm preventing outliers
- Title(参考訳): サブサンプリングアルゴリズムによる外乱防止
- Authors: L. Deldossi and E. Pesce and C. Tommasi
- Abstract要約: 我々は、高レバレッジポイントを使わずに、ほぼD-最適部分集合を選択できる教師なし交換手順を提案する。
また、この交換手順の教師付きバージョンを提供し、高いレバレッジポイントに加えて、応答の外れ値も避ける。
教師なしの選択手順と教師なしの選択手順は、正確な予測を得ることを目的として、I-最適性に一般化される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, in many different fields, massive data are available and for
several reasons, it might be convenient to analyze just a subset of the data.
The application of the D-optimality criterion can be helpful to optimally
select a subsample of observations. However, it is well known that D-optimal
support points lie on the boundary of the design space and if they go hand in
hand with extreme response values, they can have a severe influence on the
estimated linear model (leverage points with high influence). To overcome this
problem, firstly, we propose an unsupervised exchange procedure that enables us
to select a nearly D-optimal subset of observations without high leverage
values. Then, we provide a supervised version of this exchange procedure, where
besides high leverage points also the outliers in the responses (that are not
associated to high leverage points) are avoided. This is possible because,
unlike other design situations, in subsampling from big datasets the response
values may be available.
Finally, both the unsupervised and the supervised selection procedures are
generalized to I-optimality, with the goal of getting accurate predictions.
- Abstract(参考訳): 現在、多くの分野において、大量のデータが利用可能であり、いくつかの理由から、データのサブセットだけを分析するのが便利である。
D-最適基準の適用は、観測のサブサンプルを最適に選択するのに有用である。
しかし、D-最適支持点が設計空間の境界上にあることはよく知られており、極端な応答値に手を加えれば、推定された線形モデル(高い影響を持つ平均点)に深刻な影響を与える。
この問題を克服するために,まず,高いレバレッジ値を持たずに観測のほぼd-最適部分集合を選択できる教師なし交換手順を提案する。
そして、この交換手順の教師付きバージョンを提供し、高レバレッジポイントに加えて、応答(高レバレッジポイントに関連付けられていない)の外れ値も避ける。
これは、他の設計状況とは異なり、big datasetからのサブサンプリングではレスポンス値が利用できるため可能である。
最後に、教師なし選択手順と教師なし選択手順の両方をi-optimalityに一般化し、正確な予測を得る。
関連論文リスト
- Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文 参考訳(メタデータ) (2024-10-12T02:48:34Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - AdAUC: End-to-end Adversarial AUC Optimization Against Long-tail
Problems [102.95119281306893]
我々は、AUCを最適化するための敵の訓練方法を探求するための早期トライアルを提示する。
我々は、AUC最適化問題をサドル点問題として再構成し、目的がインスタンスワイズ関数となる。
我々の分析は, min-max問題の勾配を計算して, 逆例を生成するアルゴリズムが求められているため, 既存の研究と異なる。
論文 参考訳(メタデータ) (2022-06-24T09:13:39Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Data-Driven Combinatorial Optimization with Incomplete Information: a
Distributionally Robust Optimization Approach [0.0]
我々は,コストベクトルが先行性を持たないが,有限データセットでしか観測できない線形最適化問題を解析する。
目標は、データセットを対象関数の期待値の推定値に変換する手順を見つけることである。
論文 参考訳(メタデータ) (2021-05-28T23:17:35Z) - Efficient SVDD Sampling with Approximation Guarantees for the Decision
Boundary [7.251418581794502]
Support Vector Data Description (SVDD) は、異常と新規性検出のための一般的な1クラス分類器である。
その有効性にもかかわらず、SVDDはデータサイズに匹敵しない。
本稿では,これらの点を考慮したサンプルの選択方法について検討する。
提案手法は,SVDDサンプリングを最適化問題として,サンプリングが元の決定境界を実際に近似していることを保証する。
論文 参考訳(メタデータ) (2020-09-29T08:28:01Z) - Consistent and Flexible Selectivity Estimation for High-Dimensional Data [23.016360687961193]
本稿では,クエリ依存の断片的線形関数を選択性推定器として学習する深層学習モデルを提案する。
提案手法は,最先端モデルの精度を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-05-20T08:24:53Z) - A Support Detection and Root Finding Approach for Learning
High-dimensional Generalized Linear Models [10.103666349083165]
本研究では,高次元一般化線形モデルの学習を支援する支援検出法とルート探索法を開発した。
提案手法の利点を説明するため,シミュレーションと実データ解析を行った。
論文 参考訳(メタデータ) (2020-01-16T14:35:17Z) - Supervised Hyperalignment for multi-subject fMRI data alignment [81.8694682249097]
本稿では,MVP解析における機能的アライメントを改善するために,SHA(Supervised Hyperalignment)手法を提案する。
マルチオブジェクトデータセットの実験では、SHA法は最大19%の性能がマルチクラス問題に対して達成されている。
論文 参考訳(メタデータ) (2020-01-09T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。