論文の概要: Toward Understanding Privileged Features Distillation in
Learning-to-Rank
- arxiv url: http://arxiv.org/abs/2209.08754v1
- Date: Mon, 19 Sep 2022 04:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:04:20.498131
- Title: Toward Understanding Privileged Features Distillation in
Learning-to-Rank
- Title(参考訳): 学習・ランクにおける特質蒸留の理解に向けて
- Authors: Shuo Yang, Sujay Sanghavi, Holakou Rahmanian, Jan Bakus, S.V.N.
Vishwanathan
- Abstract要約: 特権的特徴蒸留(PFD)は、すべての特徴(特権的特徴を含む)を使って「教師」モデルを訓練し、特権的特徴を使用しない「学生」モデルを訓練する、という自然な考え方を指す。
最初に、PFDを3つの公開ランキングデータセットと、Amazonのログから派生した産業規模のランキング問題で実証的に研究した。
以上の結果から,PFDはこれらすべてのデータセットにおいて,無蒸留,事前学習,自己蒸留,一般蒸留などいくつかのベースラインを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 16.17856754492882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In learning-to-rank problems, a privileged feature is one that is available
during model training, but not available at test time. Such features naturally
arise in merchandised recommendation systems; for instance, "user clicked this
item" as a feature is predictive of "user purchased this item" in the offline
data, but is clearly not available during online serving. Another source of
privileged features is those that are too expensive to compute online but
feasible to be added offline. Privileged features distillation (PFD) refers to
a natural idea: train a "teacher" model using all features (including
privileged ones) and then use it to train a "student" model that does not use
the privileged features.
In this paper, we first study PFD empirically on three public ranking
datasets and an industrial-scale ranking problem derived from Amazon's logs. We
show that PFD outperforms several baselines (no-distillation,
pretraining-finetuning, self-distillation, and generalized distillation) on all
these datasets. Next, we analyze why and when PFD performs well via both
empirical ablation studies and theoretical analysis for linear models. Both
investigations uncover an interesting non-monotone behavior: as the predictive
power of a privileged feature increases, the performance of the resulting
student model initially increases but then decreases. We show the reason for
the later decreasing performance is that a very predictive privileged teacher
produces predictions with high variance, which lead to high variance student
estimates and inferior testing performance.
- Abstract(参考訳): 学習からランクへの問題では、モデルトレーニング中に特権機能が利用できるが、テスト時には利用できない。
このような機能は、例えば「ユーザがこのアイテムをクリックした」という特徴は、オフラインデータで「このアイテムを購入した」と予測されるが、オンラインサービス中は明らかに利用できない。
特権的な機能のもう1つの源は、オンライン計算には高すぎるがオフラインで追加できる機能である。
特権的特徴蒸留(PFD)は、すべての特徴(特権的特徴を含む)を使って「教師」モデルを訓練し、特権的特徴を使用しない「学生」モデルを訓練する、という自然な考え方を指す。
本稿では,Amazonのログから得られた3つの公開ランキングデータセットと産業規模ランキング問題に対して,PFDを実証的に検討した。
pfdは,これらすべてのデータセットにおいて,いくつかのベースライン(no-distillation,pretraining-finetuning,self-distillation,generalized distillation)を上回っている。
次に,経験的アブレーション研究と線形モデルの理論解析の両方を通してpfdがうまく機能する理由と時期を分析する。
どちらの調査も、特権的特徴の予測能力が増大するにつれて、結果として得られる学生モデルの性能は最初は増大するが、その後減少する。
後者の性能低下の要因として,非常に予測的な特権を持つ教師が,高い分散度で予測を行い,学生の予測値のばらつきやテスト性能の低下につながることがあげられる。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - On the Foundations of Shortcut Learning [20.53986437152018]
予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
論文 参考訳(メタデータ) (2023-10-24T22:54:05Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Logical Reasoning with Span Predictions: Span-level Logical Atoms for
Interpretable and Robust NLI Models [19.601700560645206]
現在の自然言語推論(NLI)モデルは、時には非分配テストセットで人間よりも優れた結果が得られる。
我々はNLIのための論理的推論フレームワークを導入し、論理的ルールに基づいた極めて透明なモデル決定を作成します。
SNLIの性能をほぼ完全に維持しつつ、各モデル予測に責任を持つ正確な仮説を特定できます。
論文 参考訳(メタデータ) (2022-05-23T16:24:27Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Testing using Privileged Information by Adapting Features with
Statistical Dependence [41.64621679913436]
テスト時に追加機能を利用することで、再トレーニングや予測関数の知識のない予測を改善する。
我々は,初期雑音予測器と付加特徴との統計的依存を実験的に推定し,強化する。
一例として,本手法が実世界の視覚的ランキングの改善につながることを示す。
論文 参考訳(メタデータ) (2021-11-04T13:45:34Z) - Pulling Up by the Causal Bootstraps: Causal Data Augmentation for
Pre-training Debiasing [14.4304416146106]
我々は、因果ブートストレッピングと呼ばれる因果訓練前脱バイアス技術の研究と拡張を行った。
このような因果前訓練技術が,既存のベースプラクティスを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-08-27T21:42:04Z) - Predicting student performance using data from an auto-grading system [0.0]
我々はMarmoset自動階調システムから抽出した様々な特徴を持つ決定木モデルと線形回帰モデルを構築した。
本稿では, 入力時間間隔を用いた線形回帰モデルが, 精度とF-Measureの点で, 全モデルの中で最良であることを示す。
また,成績の悪い生徒に誤分類された生徒は,すべてのモデルにおいて,線形回帰モデルの中では最も低い実例があることが示唆された。
論文 参考訳(メタデータ) (2021-02-02T03:02:39Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Predicting MOOCs Dropout Using Only Two Easily Obtainable Features from
the First Week's Activities [56.1344233010643]
いくつかの特徴は、学習者の誘惑や興味の欠如に寄与すると考えられており、そのことが解脱や総減退につながる可能性がある。
この研究は、いくつかの機械学習アプローチを比較して、最初の1週間から早期のドロップアウトを予測することを目的としている。
論文 参考訳(メタデータ) (2020-08-12T10:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。