論文の概要: Learning under Label Proportions for Text Classification
- arxiv url: http://arxiv.org/abs/2310.11707v1
- Date: Wed, 18 Oct 2023 04:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:47:26.222179
- Title: Learning under Label Proportions for Text Classification
- Title(参考訳): テキスト分類のためのラベルによる学習
- Authors: Jatin Chauhan, Xiaoxuan Wang, Wei Wang
- Abstract要約: 我々は、LLP(Learning from Proportions)の挑戦的なセットアップの下で、予備的なNLP作品の1つを提示する。
データは、バッグと呼ばれる集約形式で提供され、各クラス内のサンプルの割合のみが基礎となる真理である。
- 参考スコア(独自算出の注目度): 13.29710879730948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present one of the preliminary NLP works under the challenging setup of
Learning from Label Proportions (LLP), where the data is provided in an
aggregate form called bags and only the proportion of samples in each class as
the ground truth. This setup is inline with the desired characteristics of
training models under Privacy settings and Weakly supervision. By
characterizing some irregularities of the most widely used baseline technique
DLLP, we propose a novel formulation that is also robust. This is accompanied
with a learnability result that provides a generalization bound under LLP.
Combining this formulation with a self-supervised objective, our method
achieves better results as compared to the baselines in almost 87% of the
experimental configurations which include large scale models for both long and
short range texts across multiple metrics.
- Abstract(参考訳): 本稿では,LLP(Learning from Label Proportions)の挑戦的な設定の下で,各クラス内のサンプルの割合を基本事実として,バッグと呼ばれる集約形式でデータを提供する予備的NLP作品の1つを紹介する。
この設定は、プライバシ設定と弱い監督の下でトレーニングモデルの望ましい特性と合致する。
最も広く使われているベースライン技術DLLPのいくつかの不規則性を特徴付けることにより、ロバストな新しい定式化を提案する。
これは LLP で有界な一般化を提供する学習可能性結果に付随する。
この定式化を自己教師付き目的と組み合わせることで,実験構成のほぼ87%のベースラインと比較して,複数のメトリクスをまたいだ長距離テキストと短距離テキストの大規模モデルを含むような結果が得られる。
関連論文リスト
- Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。
我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文 参考訳(メタデータ) (2023-12-06T14:54:10Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery [76.63807209414789]
我々は,クラスiNCDにおける現状問題に挑戦し,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。
凍結したPTMバックボーンと学習可能な線形分類器から構成される単純なベースラインを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Training image classifiers using Semi-Weak Label Data [26.04162590798731]
多重インスタンス学習(MIL)では、弱ラベルがバッグレベルで提供され、存在/存在情報のみが知られる。
本稿では,この問題を軽減するため,新たな半弱ラベル学習パラダイムを提案する。
半弱ラベルから学習する問題に対処する2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-19T03:06:07Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。