論文の概要: Stable and Semi-stable Sampling Approaches for Continuously Used Samples
- arxiv url: http://arxiv.org/abs/2203.01381v1
- Date: Wed, 2 Mar 2022 19:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:45:53.001325
- Title: Stable and Semi-stable Sampling Approaches for Continuously Used Samples
- Title(参考訳): 連続使用試料に対する安定・半安定サンプリング法
- Authors: Nikita Astrakhantsev, Deepak Chittajallu, Nabeel Kaushal, Vladislav
Mokeev
- Abstract要約: 実用的な検索エンジンでは、毎日や毎週のように、このような測定を継続的に行う必要がある。
これにより、(a)クエリサンプルの代表性と製品の現在のクエリトラフィックとの間のトレードオフ、(b)ラベルのコスト、(c)同じクエリサンプルの継続的な使用によるオーバーフィッティングが発生する。
安定版と準安定版という2つの新しい変種を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information retrieval systems are usually measured by labeling the relevance
of results corresponding to a sample of user queries. In practical search
engines, such measurement needs to be performed continuously, such as daily or
weekly. This creates a trade-off between (a) representativeness of query sample
to current query traffic of the product; (b) labeling cost: if we keep the same
query sample, results would be similar allowing us to reuse their labels; and
(c) overfitting caused by continuous usage of same query sample. In this paper
we explicitly formulate this tradeoff, propose two new variants -- Stable and
Semi-stable -- to simple and weighted random sampling and show that they
outperform existing approaches for the continuous usage settings, including
monitoring/debugging search engine or comparing ranker candidates.
- Abstract(参考訳): 情報検索システムは、通常、ユーザクエリのサンプルに対応する結果の関連性をラベル付けすることで測定される。
実用的な検索エンジンでは、日次や週次などの計測を継続的に行う必要がある。
これはトレードオフを生み出します。
(a) 製品の現在のクエリトラフィックに対するクエリサンプルの代表性
(b)ラベルのコスト:同じクエリサンプルを保持すると、結果が似ていて、ラベルを再利用できます。
(c) 同じクエリサンプルの連続使用による過度な適合。
本稿では,このトレードオフを明示的に定式化し,単純で重み付けされたランダムサンプリングを行うための2つの新しい変種,すなわち安定版と半安定版を提案する。
関連論文リスト
- Sampling Audit Evidence Using a Naive Bayes Classifier [0.0]
本研究は,機械学習とサンプリングを統合することで,サンプリング手法を進歩させる。
機械学習の統合は、サンプリングバイアスを避け、ランダム性と可変性を保ち、リスクサンプルをターゲットする。
論文 参考訳(メタデータ) (2024-03-21T01:35:03Z) - Efficient Failure Pattern Identification of Predictive Algorithms [15.02620042972929]
本稿では,人間のアノテータチームとシーケンシャルレコメンデーションアルゴリズムからなる人間機械協調フレームワークを提案する。
その結果、様々な信号対雑音比で複数のデータセット上でのフレームワークの競合性能を実証的に実証した。
論文 参考訳(メタデータ) (2023-06-01T14:54:42Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - Sequential Predictive Two-Sample and Independence Testing [114.4130718687858]
逐次的非パラメトリック2サンプルテストと独立テストの問題点について検討する。
私たちは賭けによる(非パラメトリックな)テストの原則に基づいています。
論文 参考訳(メタデータ) (2023-04-29T01:30:33Z) - Automatically Summarizing Evidence from Clinical Trials: A Prototype
Highlighting Current Challenges [20.74608114488094]
TrialsSummarizerは、与えられたクエリに最も関係のあるランダム化制御された試行セットで提示されたエビデンスを自動的に要約することを目的としている。
システムは、条件、介入、結果の組み合わせを指定するクエリに一致するトライアルパブリッシュを検索する
トップkの研究は、神経多文書要約システムを通して受け継がれ、これらの試行の相乗効果をもたらす。
論文 参考訳(メタデータ) (2023-03-07T17:30:48Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Robust Continual Test-time Adaptation: Instance-aware BN and
Prediction-balanced Memory [58.72445309519892]
テストデータストリーム以外のデータストリームに対して堅牢な新しいテスト時間適応方式を提案する。
a)分布外サンプルの正規化を修正するIABN(Instance-Aware Batch Normalization)と、(b)クラスバランスのない方法で非i.d.ストリームからのデータストリームをシミュレートするPBRS(Predict- Balanced Reservoir Sampling)である。
論文 参考訳(メタデータ) (2022-08-10T03:05:46Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - A Case Study on Sampling Strategies for Evaluating Neural Sequential
Item Recommendation Models [69.32128532935403]
負の項目をサンプリングする2つのよく知られた戦略は、一様ランダムサンプリングと人気によるサンプリングである。
我々は、現在最先端のシーケンシャルレコメンデータモデルを再評価する。
いずれのサンプリング戦略も,モデルの完全なランキングと比較すると,一貫性のないランキングを生成できることがわかった。
論文 参考訳(メタデータ) (2021-07-27T19:06:03Z) - AutoSampling: Search for Effective Data Sampling Schedules [118.20014773014671]
モデル学習のためのサンプリングスケジュールを自動的に学習するAutoSampling法を提案する。
提案手法の有効性を示す様々な画像分類タスクに本手法を適用した。
論文 参考訳(メタデータ) (2021-05-28T09:39:41Z) - Approximate Query Processing for Group-By Queries based on Conditional
Generative Models [3.9837198605506963]
グループバイクエリには複数の値が含まれるため、すべてのグループに対して十分な正確な推定を行うのは難しい。
階層化サンプリングは、一様サンプリングに比べて精度が向上するが、特定のクエリで選択されたサンプルは他のクエリでは動作しない。
オンラインサンプリングは、クエリ時に与えられたクエリのサンプルを選択するが、長いレイテンシを必要とする。
提案フレームワークは階層化サンプリングとオンラインアグリゲーションを組み合わせることで,グループバイクエリの推定精度を向上させることができる。
論文 参考訳(メタデータ) (2021-01-08T08:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。