論文の概要: Flick: Few Labels Text Classification using K-Aware Intermediate Learning in Multi-Task Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2506.10292v1
- Date: Thu, 12 Jun 2025 02:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.529054
- Title: Flick: Few Labels Text Classification using K-Aware Intermediate Learning in Multi-Task Low-Resource Languages
- Title(参考訳): Flick:マルチタスク低リソース言語におけるK-Aware Intermediate Learningを用いたテキスト分類
- Authors: Ali Almutairi, Abdullah Alsuhaibani, Shoaib Jameel, Usman Naseem, Gelareh Mohammadi, Imran Razzak,
- Abstract要約: そこで本稿では,Flickを低リソースの言語文脈における少数ラベルテキスト分類の永続的課題に対処するために提案する。
Flickは、シングルクラスタの凝集に集中し、適応的なトップk選択機構を活用することで、初期の広義のセットから高度に信頼性の高い擬似ラベルを除去することを学ぶ。
Flickの有効性を、アラビア語、ウルドゥー語、セツワナなどの低リソース言語を含む14の多様なデータセットで実証する。
- 参考スコア(独自算出の注目度): 15.409164660580362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning networks with minimal supervision has gained significant research attention due to its potential to reduce reliance on extensive labelled data. While self-training methods have proven effective in semi-supervised learning, they remain vulnerable to errors from noisy pseudo labels. Moreover, most recent approaches to the few-label classification problem are either designed for resource-rich languages such as English or involve complex cascading models that are prone to overfitting. To address the persistent challenge of few-label text classification in truly low-resource linguistic contexts, where existing methods often struggle with noisy pseudo-labels and domain adaptation, we propose Flick. Unlike prior methods that rely on generic multi-cluster pseudo-labelling or complex cascading architectures, Flick leverages the fundamental insight that distilling high-confidence pseudo-labels from a broader set of initial clusters can dramatically improve pseudo-label quality, particularly for linguistically diverse, low-resource settings. Flick introduces a novel pseudo-label refinement component, a departure from traditional pseudo-labelling strategies by identifying and leveraging top-performing pseudo-label clusters. This component specifically learns to distil highly reliable pseudo-labels from an initial broad set by focusing on single-cluster cohesion and leveraging an adaptive top-k selection mechanism. This targeted refinement process is crucial for mitigating the propagation of errors inherent in low-resource data, allowing for robust fine-tuning of pre-trained language models with only a handful of true labels. We demonstrate Flick's efficacy across 14 diverse datasets, encompassing challenging low-resource languages such as Arabic, Urdu, and Setswana, alongside English, showcasing its superior performance and adaptability.
- Abstract(参考訳): 最小限の監督下でのディープラーニングネットワークのトレーニングは、広範囲なラベル付きデータへの依存を減らす可能性から、研究の注目を集めている。
自己学習法は半教師付き学習において有効であることが証明されているが、ノイズの多い擬似ラベルの誤りに弱いままである。
さらに、いくつかのラベルの分類問題に対する最近のアプローチは、英語のような資源に富む言語のために設計されているか、あるいはオーバーフィットしがちな複雑なカスケードモデルを含んでいる。
従来の手法では、ノイズの多い擬似ラベルやドメイン適応に苦しむ場合が多いが、真に低リソースな言語文脈における小文字テキスト分類の永続的な課題に対処するため、Flickを提案する。
一般的なマルチクラスタの擬似ラベリングや複雑なカスケードアーキテクチャに依存する従来の手法とは異なり、Flickは、より広範な初期クラスタから高信頼の擬似ラベルを蒸留することで、特に言語的に多様で低リソースな設定において、擬似ラベルの品質を劇的に改善できるという基本的な洞察を利用する。
Flickは、従来の擬似ラベルクラスタを特定し、活用することで、従来の擬似ラベル戦略から逸脱する、新しい擬似ラベル改善コンポーネントを導入している。
このコンポーネントは、単一クラスタの凝集に集中し、適応的なトップk選択機構を活用することで、初期広義の集合から高信頼性の擬似ラベルを除去することを特に学んでいる。
この目的の洗練プロセスは、低リソースデータに固有のエラーの伝播を緩和するために重要であり、少数の真のラベルを持つ事前学習言語モデルの堅牢な微調整を可能にする。
Flickの有効性を14の多様なデータセットで実証し、アラビア語、ウルドゥー語、セツワナ語などの低リソース言語と英語を併用して、優れたパフォーマンスと適応性を示している。
関連論文リスト
- MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。
このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-02-25T08:53:27Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - IDoFew: Intermediate Training Using Dual-Clustering in Language Models
for Few Labels Text Classification [24.11420537250414]
変換器からの双方向表現(BERT)は、自然言語処理(NLP)やテキスト分類を含むテキストマイニングタスクにおいて非常に効果的である。
いくつかのタスクは、制限付きラベル付きテキスト分類など、これらのモデルに依然として課題を生じさせる。
擬似ラベルを確実にモデル化する2段階の中間クラスタリングを開発した。
論文 参考訳(メタデータ) (2024-01-08T17:07:37Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels [26.542718087103665]
SemiMatchは意味論的に類似した画像間の密接な対応を確立するための半教師付きソリューションである。
筆者らのフレームワークは,ソースと弱増強ターゲット間のモデル予測自体を用いて擬似ラベルを生成し,擬似ラベルを用いてソースと強増強ターゲット間のモデルの再学習を行う。
実験では、SemiMatchは様々なベンチマーク、特にPF-Willowにおける最先端のパフォーマンスを大きなマージンで達成している。
論文 参考訳(メタデータ) (2022-03-30T03:52:50Z) - Active Refinement for Multi-Label Learning: A Pseudo-Label Approach [84.52793080276048]
MLL(Multi-label Learning)は、あるインスタンスと関連するラベルを一連の概念から関連付けることを目的としている。
MLLの以前の研究は、主に概念セットが修正されると思われる設定に焦点を当てていた。
多くの現実世界のアプリケーションは、新しい要求を満たすために新しい概念をセットに導入する必要がある。
論文 参考訳(メタデータ) (2021-09-29T19:17:05Z) - PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。
提案手法の有効性を,低データと高データの両方において示す。
論文 参考訳(メタデータ) (2020-10-19T17:59:30Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。