論文の概要: LLP-Bench: A Large Scale Tabular Benchmark for Learning from Label
Proportions
- arxiv url: http://arxiv.org/abs/2310.10096v2
- Date: Tue, 5 Mar 2024 11:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 02:11:09.984683
- Title: LLP-Bench: A Large Scale Tabular Benchmark for Learning from Label
Proportions
- Title(参考訳): LLP-Bench:ラベル提供から学ぶための大規模タブラルベンチマーク
- Authors: Anand Brahmbhatt, Mohith Pokala, Rishi Saket and Aravindan Raghuveer
- Abstract要約: 我々は,Criteo CTR予測とCriteo Sponsored Search Conversion Logsデータセットから作成した70のLPPデータセット(62のフィーチャーバッグと8のランダムバッグデータセット)からなるLLP-Benchを提案する。
62個のデータセットに対して,9個のSOTAおよび一般的なLPP技術の性能を示す。
- 参考スコア(独自算出の注目度): 12.439717906082922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the task of Learning from Label Proportions (LLP), a model is trained on
groups (a.k.a bags) of instances and their corresponding label proportions to
predict labels for individual instances. LLP has been applied pre-dominantly on
two types of datasets - image and tabular. In image LLP, bags of fixed size are
created by randomly sampling instances from an underlying dataset. Bags created
via this methodology are called random bags. Experimentation on Image LLP has
been mostly on random bags on CIFAR-* and MNIST datasets. Despite being a very
crucial task in privacy sensitive applications, tabular LLP does not yet have a
open, large scale LLP benchmark. One of the unique properties of tabular LLP is
the ability to create feature bags where all the instances in a bag have the
same value for a given feature. It has been shown in prior research that
feature bags are very common in practical, real world applications [Chen et. al
'23, Saket et. al. '22].
In this paper, we address the lack of a open, large scale tabular benchmark.
First we propose LLP-Bench, a suite of 70 LLP datasets (62 feature bag and 8
random bag datasets) created from the Criteo CTR prediction and the Criteo
Sponsored Search Conversion Logs datasets, the former a classification and the
latter a regression dataset. These LLP datasets represent diverse ways in which
bags can be constructed from underlying tabular data. To the best of our
knowledge, LLP-Bench is the first large scale tabular LLP benchmark with an
extensive diversity in constituent datasets. Second, we propose four metrics
that characterize and quantify the hardness of a LLP dataset. Using these four
metrics we present deep analysis of the 62 feature bag datasets in LLP-Bench.
Finally we present the performance of 9 SOTA and popular tabular LLP techniques
on all the 62 datasets.
- Abstract(参考訳): LLP(Learning from Label Proportions)のタスクでは、モデルは個々のインスタンスのラベルを予測するために、インスタンスのグループ(例えばバッグ)とその対応するラベル比率に基づいて訓練される。
LLPは、画像と表の2種類のデータセットに対して、優先的に適用されている。
画像LLPでは、基礎となるデータセットからランダムにインスタンスをサンプリングすることで、固定サイズのバッグを生成する。
この方法で作られた袋はランダムバッグと呼ばれる。
Image LLPの実験は、主にCIFAR-*およびMNISTデータセット上のランダムバッグ上で行われている。
プライバシーに敏感なアプリケーションでは極めて重要なタスクであるにもかかわらず、タブ状のLPPはまだ、大規模なLPPベンチマークを持っていない。
表型llpのユニークな特性の1つは、バッグ内のすべてのインスタンスが特定の機能に対して同じ値を持つ機能バッグを作成する機能である。
先行研究で、機能バッグは実用的実世界のアプリケーション(chen et. al'23, saket et. al. '22)で非常に一般的であることが示されている。
本稿では,オープンで大規模な表型ベンチマークの欠如について述べる。
まず、Criteo CTR予測とCriteo Sponsored Search Conversion Logsデータセットから生成された70のLPPデータセット(62のフィーチャーバッグと8のランダムバッグデータセット)と、前者の分類と後者の回帰データセットからなるLPP-Benchを提案する。
これらのLPPデータセットは、基盤となる表データからバッグを構築する様々な方法を表している。
我々の知る限り、LPP-Benchは、構成データセットに広範な多様性を持つ最初の大規模表型LPPベンチマークである。
次に,LLPデータセットの硬さを特徴付ける4つの指標を提案する。
これら4つの指標を用いて,LLP-Benchの62個の特徴バッグデータセットの詳細な解析を行った。
最後に,全62データセットにおける9 sotaの性能と人気のある表型llp技術について述べる。
関連論文リスト
- Learning from Label Proportions and Covariate-shifted Instances [12.066922664696445]
ラベル比(LLP)から学ぶ場合、アグリゲートラベルはバッグ内のインスタンスラベルの平均である。
我々は,対象のバッグラベルとソースのインスタンスラベルを自然に組み込むハイブリッドLPの手法を開発した。
論文 参考訳(メタデータ) (2024-11-19T08:36:34Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework [15.991114464911844]
過去5年間で、大規模なデータセットは公開されていない。
本稿では,大規模・クロスドメインな歩行者属性認識データセット MSP60K を提案する。
8つのシナリオにまたがる60,122のイメージと57の属性アノテーションで構成されている。
論文 参考訳(メタデータ) (2024-08-19T06:19:31Z) - PAC Learning Linear Thresholds from Label Proportions [13.58949814915442]
ラベルパーセンテージ(LLP)からの学習は教師付き学習の一般化である。
ラベル比のランダムバッグへのアクセスを与えられた場合, LTF を用いて LTF を効率よく学習できることを示す。
学習アルゴリズムの実験的評価と,[Saket'21, Saket'22] とランダム LTF との比較を含む。
論文 参考訳(メタデータ) (2023-10-16T05:59:34Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - MixBag: Bag-Level Data Augmentation for Learning from Label Proportions [4.588028371034407]
ラベルパーセンテージ(LLP)からの学習は、有望な教師付き学習問題である。
そこで本研究では,MixBagと呼ばれるLPPのバッグレベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T07:06:50Z) - Disambiguated Attention Embedding for Multi-Instance Partial-Label
Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。
既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。
本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T13:25:17Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From
Learned Pairwise Affinity [59.1823948436411]
我々は、マスク提案のための新しいアプローチ、ジェネリックグループネットワーク(GGN)を提案する。
我々のアプローチは、ピクセル親和性の局所測定とインスタンスレベルのマスク監視を組み合わせることで、データの多様性が許容するほど汎用的なモデルを設計したトレーニングレギュレータを生成する。
論文 参考訳(メタデータ) (2022-04-12T22:37:49Z) - Fast learning from label proportions with small bags [0.0]
ラベルパーセンテージ(LLP)から学ぶ場合、インスタンスはバッグにグループ化され、トレーニングバッグの相対クラスパーセンテージが与えられたインスタンス分類器を学習する。
本研究では,全ての一貫したラベルの組み合わせを明示的に考慮し,より効率的なアルゴリズムを設計できる小袋の事例に焦点を当てる。
論文 参考訳(メタデータ) (2021-10-07T13:11:18Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。