論文の概要: Doubly-stochastic mining for heterogeneous retrieval
- arxiv url: http://arxiv.org/abs/2004.10915v1
- Date: Thu, 23 Apr 2020 00:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:02:10.895600
- Title: Doubly-stochastic mining for heterogeneous retrieval
- Title(参考訳): 不均一検索のための二重確率マイニング
- Authors: Ankit Singh Rawat, Aditya Krishna Menon, Andreas Veit, Felix Yu,
Sashank J. Reddi, Sanjiv Kumar
- Abstract要約: 現代の検索問題は、数十億のラベルを持つトレーニングセットによって特徴づけられる。
ラベルの数が多ければ、単一の例であっても標準的な損失を最適化することは困難である。
両課題に対処するため, 二重確率地雷 (S2M) を提案する。
- 参考スコア(独自算出の注目度): 74.43785301907276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern retrieval problems are characterised by training sets with potentially
billions of labels, and heterogeneous data distributions across subpopulations
(e.g., users of a retrieval system may be from different countries), each of
which poses a challenge. The first challenge concerns scalability: with a large
number of labels, standard losses are difficult to optimise even on a single
example. The second challenge concerns uniformity: one ideally wants good
performance on each subpopulation. While several solutions have been proposed
to address the first challenge, the second challenge has received relatively
less attention. In this paper, we propose doubly-stochastic mining (S2M ), a
stochastic optimization technique that addresses both challenges. In each
iteration of S2M, we compute a per-example loss based on a subset of hardest
labels, and then compute the minibatch loss based on the hardest examples. We
show theoretically and empirically that by focusing on the hardest examples,
S2M ensures that all data subpopulations are modelled well.
- Abstract(参考訳): 現代の検索問題は、潜在的に数十億のラベルを持つトレーニングセットと、サブポピュレーション全体にわたる異種データの分散(例えば、検索システムの利用者は異なる国出身かもしれない)によって特徴づけられる。
最初の課題はスケーラビリティに関するものだ。多くのラベルでは、単一の例でも標準損失を最適化することは困難である。
第2の課題は、一様性に関するもので、各サブポピュレーションにおいて、理想的には良いパフォーマンスを求めるものである。
最初の課題に対処するためにいくつかの解決策が提案されているが、第2の課題は比較的少ない注目を集めている。
本稿では,両課題に対処する確率的最適化手法である二重確率的マイニング(S2M)を提案する。
S2Mの各イテレーションにおいて、最も難しいラベルのサブセットに基づいてサンプルごとの損失を計算し、最も難しい例に基づいてミニバッチ損失を算出する。
我々は、最も難しい例に注目して、S2Mは全てのデータサブポピュレーションが適切にモデル化されていることを理論的、実証的に示す。
関連論文リスト
- SP$^2$OT: Semantic-Regularized Progressive Partial Optimal Transport for Imbalanced Clustering [14.880015659013681]
本稿では,トランスポートをベースとした新しい擬似ラベル学習フレームワークを提案する。
本フレームワークは,擬似ラベル生成をセマンティック正規化プログレッシブ部分最適輸送問題として定式化する。
我々は、SP$2$OT問題をプログレッシブ部分最適輸送問題に再構成するために、偏化戦略を採用する。
論文 参考訳(メタデータ) (2024-04-04T13:46:52Z) - P$^2$OT: Progressive Partial Optimal Transport for Deep Imbalanced
Clustering [16.723646401890495]
深層クラスタリングのための新しい擬似ラベル学習フレームワークを提案する。
本フレームワークは,高信頼度サンプルから不均衡を意識した擬似ラベルと学習を生成する。
CIFAR100を含む様々なデータセットの実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2024-01-17T15:15:46Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Recovering Top-Two Answers and Confusion Probability in Multi-Choice
Crowdsourcing [10.508187462682308]
我々は,クラウドソーシングの課題を,基礎的真理だけでなく,最も紛らわしい回答と混乱確率の回復を目標として検討している。
本稿では,各タスクの上位2つの答えが,他の選択肢と区別されるモデルを提案する。
このモデルでは、上位2つの答えと混乱確率の両方を推測する2段階の推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-29T09:46:39Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image
Retrieval [20.53316810731414]
ハイブリッドプロキシペアロス(HyP$2$ロス)を用いた新しいメトリクス学習フレームワークを提案する。
提案されたHyP$2$Losは、学習可能なプロキシによるハイパースフィア空間の最適化と、無関係なペアのデータ-データ相関の探索に焦点を当てている。
論文 参考訳(メタデータ) (2022-08-14T15:06:27Z) - Two-Stage Stochastic Optimization via Primal-Dual Decomposition and Deep
Unrolling [86.85697555068168]
2段階のアルゴリズム最適化は、様々な工学や科学的応用において重要な役割を果たす。
特に長期変数と短期変数が制約の中で結合されている場合、アルゴリズムは効率的ではない。
PDD-SSCAが既存のソリューションよりも優れたパフォーマンスを達成できることを示します。
論文 参考訳(メタデータ) (2021-05-05T03:36:00Z) - SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping [47.221326169627666]
吸引つかみのシール形成とレンチ抵抗を解析的に評価する新しい物理モデルを提案する。
現実世界の混乱したシナリオで収集された大規模データセットにアノテーションを生成するために、2段階の手法が採用されている。
連続運転空間における吸入ポーズを評価するための標準オンライン評価システムを提案する。
論文 参考訳(メタデータ) (2021-03-23T05:02:52Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。