論文の概要: STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables
- arxiv url: http://arxiv.org/abs/2303.00918v1
- Date: Thu, 2 Mar 2023 02:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:18:43.203925
- Title: STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables
- Title(参考訳): STUNT: ラベルのないテーブルから自己生成タスクを学習する
- Authors: Jaehyun Nam, Jihoon Tack, Kyungmin Lee, Hankook Lee, Jinwoo Shin
- Abstract要約: 我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
- 参考スコア(独自算出の注目度): 64.0903766169603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning with few labeled tabular samples is often an essential requirement
for industrial machine learning applications as varieties of tabular data
suffer from high annotation costs or have difficulties in collecting new
samples for novel tasks. Despite the utter importance, such a problem is quite
under-explored in the field of tabular learning, and existing few-shot learning
schemes from other domains are not straightforward to apply, mainly due to the
heterogeneous characteristics of tabular data. In this paper, we propose a
simple yet effective framework for few-shot semi-supervised tabular learning,
coined Self-generated Tasks from UNlabeled Tables (STUNT). Our key idea is to
self-generate diverse few-shot tasks by treating randomly chosen columns as a
target label. We then employ a meta-learning scheme to learn generalizable
knowledge with the constructed tasks. Moreover, we introduce an unsupervised
validation scheme for hyperparameter search (and early stopping) by generating
a pseudo-validation set using STUNT from unlabeled data. Our experimental
results demonstrate that our simple framework brings significant performance
gain under various tabular few-shot learning benchmarks, compared to prior
semi- and self-supervised baselines. Code is available at
https://github.com/jaehyun513/STUNT.
- Abstract(参考訳): 表データの種類はアノテーションコストが高いか、新しいタスクのために新しいサンプルを集めるのが難しいため、工業用機械学習アプリケーションでは、ラベル付き表型サンプルの学習が必須となることが多い。
表型学習の分野では,このような問題は極めて過小評価されているが,表型データの不均一な特徴から,他の領域からの散発的な学習方式は適用が容易ではない。
本稿では,半教師付き半教師付き表学習のための単純かつ効果的なフレームワークを提案し,ラベルなしテーブル (stunt) から自己生成タスクを生成する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、構築したタスクで一般化可能な知識を学ぶためにメタラーニングスキームを用いる。
さらに、ラベルなしデータからSTUNTを用いて擬似検証セットを生成することにより、ハイパーパラメータ探索(および早期停止)の教師なし検証手法を導入する。
実験結果から,従来の半教師付きベースラインおよび自己教師付きベースラインと比較して,様々な表型少数ショット学習ベンチマークで性能が大幅に向上することが示された。
コードはhttps://github.com/jaehyun513/stuntで入手できる。
関連論文リスト
- Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Using Self-Supervised Pretext Tasks for Active Learning [7.214674613451605]
本稿では,自己教師付きプレテキストタスクとユニークなデータサンプリング機能を利用して,困難かつ代表的なデータを選択する,新しいアクティブラーニング手法を提案する。
プレテキストタスク学習者は、未ラベルのセットでトレーニングされ、未ラベルのデータは、そのプレテキストタスクの損失によって、バッチにソートされ、グループ化される。
各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチで最も不確実なデータをサンプリングする。
論文 参考訳(メタデータ) (2022-01-19T07:58:06Z) - BAMLD: Bayesian Active Meta-Learning by Disagreement [39.59987601426039]
本稿では,メタトレーニングタスクのラベル付け要求数を削減するための情報理論アクティブタスク選択機構を提案する。
本稿では,既存の取得メカニズムと比較した実験結果について報告する。
論文 参考訳(メタデータ) (2021-10-19T13:06:51Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Deep Active Learning via Open Set Recognition [0.0]
多くのアプリケーションでは、データは簡単に取得できるが、顕著な例を示すのに高価で時間がかかる。
オープンセット認識問題として能動的学習を定式化する。
現在のアクティブな学習方法とは異なり、我々のアルゴリズムはタスクラベルを必要とせずにタスクを学習することができる。
論文 参考訳(メタデータ) (2020-07-04T22:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。