論文の概要: On the Necessity of World Knowledge for Mitigating Missing Labels in Extreme Classification
- arxiv url: http://arxiv.org/abs/2408.09585v1
- Date: Sun, 18 Aug 2024 20:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:14:03.969155
- Title: On the Necessity of World Knowledge for Mitigating Missing Labels in Extreme Classification
- Title(参考訳): 極端分類における欠落ラベルの緩和のための世界知識の必要性について
- Authors: Jatin Prakash, Anirudh Buvanesh, Bishal Santra, Deepak Saini, Sachin Yadav, Jian Jiao, Yashoteja Prabhu, Amit Sharma, Manik Varma,
- Abstract要約: Extreme Classification (XC) は、クエリを非常に大きなドキュメントセットから最も関連性の高いドキュメントにマッピングすることを目的としている。
我々は、体系的なラベルの欠落が知識の欠如を招き、クエリとドキュメント間の関連性を正確にモデル化するために重要であることを観察する。
SKIMは、小さいLMと豊富な非構造化メタデータの組み合わせを利用して、欠落ラベル問題を効果的に軽減するアルゴリズムである。
- 参考スコア(独自算出の注目度): 17.309987565818577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extreme Classification (XC) aims to map a query to the most relevant documents from a very large document set. XC algorithms used in real-world applications learn this mapping from datasets curated from implicit feedback, such as user clicks. However, these datasets inevitably suffer from missing labels. In this work, we observe that systematic missing labels lead to missing knowledge, which is critical for accurately modelling relevance between queries and documents. We formally show that this absence of knowledge cannot be recovered using existing methods such as propensity weighting and data imputation strategies that solely rely on the training dataset. While LLMs provide an attractive solution to augment the missing knowledge, leveraging them in applications with low latency requirements and large document sets is challenging. To incorporate missing knowledge at scale, we propose SKIM (Scalable Knowledge Infusion for Missing Labels), an algorithm that leverages a combination of small LM and abundant unstructured meta-data to effectively mitigate the missing label problem. We show the efficacy of our method on large-scale public datasets through exhaustive unbiased evaluation ranging from human annotations to simulations inspired from industrial settings. SKIM outperforms existing methods on Recall@100 by more than 10 absolute points. Additionally, SKIM scales to proprietary query-ad retrieval datasets containing 10 million documents, outperforming contemporary methods by 12% in offline evaluation and increased ad click-yield by 1.23% in an online A/B test conducted on a popular search engine. We release our code, prompts, trained XC models and finetuned SLMs at: https://github.com/bicycleman15/skim
- Abstract(参考訳): Extreme Classification (XC) は、クエリを非常に大きなドキュメントセットから最も関連性の高いドキュメントにマッピングすることを目的としている。
現実世界のアプリケーションで使用されるXCアルゴリズムは、ユーザクリックのような暗黙のフィードバックから算出されたデータセットからこのマッピングを学ぶ。
しかし、これらのデータセットは必然的にラベルの欠落に悩まされる。
本研究では,体系的なラベルの欠落が知識の欠如を招き,クエリとドキュメントの関連性を正確にモデル化するために重要であることを観察する。
我々は,この知識の欠如が,トレーニングデータセットにのみ依存する確率重み付けやデータ計算戦略といった既存の手法では回復できないことを正式に示している。
LLMは不足する知識を増強するための魅力的なソリューションを提供するが、低レイテンシ要件と大きなドキュメントセットを持つアプリケーションでそれらを活用することは難しい。
SKIM (Scalable Knowledge Infusion for Missing Labels) は,少人数のLMと豊富な非構造化メタデータを組み合わせることで,不足ラベル問題を効果的に軽減するアルゴリズムである。
本研究では,人間のアノテーションから産業環境にインスパイアされたシミュレーションに至るまで,大規模公開データセットに対する提案手法の有効性を示す。
SKIMはRecall@100の既存のメソッドを10以上の絶対点で上回る。
さらに、SKIMは1000万のドキュメントを含むプロプライエタリなクエリアド検索データセットにスケールし、現在の手法をオフライン評価で12%上回り、人気のある検索エンジン上で行われたオンラインA/Bテストでは、広告クリック収率を1.23%上回った。
コード、プロンプト、訓練されたXCモデル、微調整されたSLMは以下の通りです。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery [6.037276428689637]
本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(Disdiscovery Graph)を紹介する。
本手法は,手作業と比較して文書レビューコストを99.9%削減し,LCMに基づく分類法と比較して95%削減する。
論文 参考訳(メタデータ) (2024-05-29T15:08:55Z) - LORD: Leveraging Open-Set Recognition with Unknown Data [10.200937444995944]
LORDは未知のデータを活用することでオープンセット認識を活用するためのフレームワークである。
我々は、背景データを利用した3つのモデルに依存しない訓練戦略を特定し、それらを確立された分類器に適用する。
論文 参考訳(メタデータ) (2023-08-24T06:12:41Z) - CELDA: Leveraging Black-box Language Model as Enhanced Classifier
without Labels [14.285609493077965]
クラスタリング強化線形識別分析(Linar Discriminative Analysis)は、非常に弱いスーパービジョン信号を用いてテキスト分類精度を向上させる新しい手法である。
我々のフレームワークは、LMモデルやデータラベルの重みや勾配にアクセスすることなく、正確な決定境界を描画する。
論文 参考訳(メタデータ) (2023-06-05T08:35:31Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - Spacing Loss for Discovering Novel Categories [72.52222295216062]
新たなクラスディスカバリ(NCD)は、マシンラーニングモデルがラベルのないデータからインスタンスを意味的にグループ化する、学習パラダイムである。
まず,ラベル付きデータとラベルなしデータを併用する必要があるかどうかに基づいて,既存のNCD手法を1段階および2段階の手法に特徴付ける。
多次元スケーリングのキューを用いて、潜在空間における分離性を強制する単純で強力な損失関数を考案する。
論文 参考訳(メタデータ) (2022-04-22T09:37:11Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。