論文の概要: Forget NLI, Use a Dictionary: Zero-Shot Topic Classification for Low-Resource Languages with Application to Luxembourgish
- arxiv url: http://arxiv.org/abs/2404.03912v1
- Date: Fri, 5 Apr 2024 06:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:44:14.980784
- Title: Forget NLI, Use a Dictionary: Zero-Shot Topic Classification for Low-Resource Languages with Application to Luxembourgish
- Title(参考訳): 辞書を使わないNLI:Luxembourgishを応用した低リソース言語のためのゼロショットトピック分類
- Authors: Fred Philippy, Shohreh Haddadan, Siwen Guo,
- Abstract要約: NLPでは、ゼロショット分類(ゼロショット分類、ゼロショット分類、ZSC)は、ターゲットクラスのラベル付き例を使わずに、ラベルをテキストデータに割り当てるタスクである。
辞書をZSCのデータソースとして活用する代替ソリューションを提案する。
我々は、ルクセンブルクで話される低リソース言語であるLuxembourgishに注目し、新しいトピック関連分類データセットを2つ構築する。
- 参考スコア(独自算出の注目度): 6.6635650150737815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In NLP, zero-shot classification (ZSC) is the task of assigning labels to textual data without any labeled examples for the target classes. A common method for ZSC is to fine-tune a language model on a Natural Language Inference (NLI) dataset and then use it to infer the entailment between the input document and the target labels. However, this approach faces certain challenges, particularly for languages with limited resources. In this paper, we propose an alternative solution that leverages dictionaries as a source of data for ZSC. We focus on Luxembourgish, a low-resource language spoken in Luxembourg, and construct two new topic relevance classification datasets based on a dictionary that provides various synonyms, word translations and example sentences. We evaluate the usability of our dataset and compare it with the NLI-based approach on two topic classification tasks in a zero-shot manner. Our results show that by using the dictionary-based dataset, the trained models outperform the ones following the NLI-based approach for ZSC. While we focus on a single low-resource language in this study, we believe that the efficacy of our approach can also transfer to other languages where such a dictionary is available.
- Abstract(参考訳): NLPでは、ゼロショット分類(ゼロショット分類、ゼロショット分類、ZSC)は、ターゲットクラスのラベル付き例を使わずに、ラベルをテキストデータに割り当てるタスクである。
ZSCの一般的な方法は、自然言語推論(NLI)データセット上で言語モデルを微調整し、入力された文書とターゲットラベルの間の関係を推測することである。
しかしこのアプローチは、特に限られたリソースを持つ言語において、いくつかの課題に直面している。
本稿では,辞書をZSCのデータソースとして活用する代替手法を提案する。
我々は、ルクセンブルクで話される低リソース言語であるLuxembourgishに注目し、様々な同義語、単語翻訳、例文を提供する辞書に基づく2つの新しいトピック関連分類データセットを構築した。
我々は、データセットのユーザビリティを評価し、NLIに基づく2つのトピック分類タスクをゼロショットで比較した。
本研究は,辞書ベースのデータセットを用いて,ZSCに対するNLIベースのアプローチに追従したモデルよりも優れていることを示す。
本研究では,1つの低リソース言語に焦点をあてる一方で,そのような辞書が利用できる他の言語にもアプローチの有効性が移行できると考えている。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition [15.31736490777998]
NERは、ターゲット言語のためのNERモデルをトレーニングすることを目的としている。
言語間NERのためのGlobal-Local Denoising framework(GLoDe)を提案する。
6つのターゲット言語を持つ2つのベンチマークデータセットの実験結果から,提案したGLoDeは最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-03T11:29:19Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Learning to Infer from Unlabeled Data: A Semi-supervised Learning
Approach for Robust Natural Language Inference [47.293189105900524]
自然言語推論(英: Natural Language Inference、NLI)は、一対の文(前提と仮説)の関係を、関係性、矛盾、意味的な独立性として予測することを目的としている。
近年、ディープラーニングモデルはNLIに有望なパフォーマンスを示しており、大規模で高価な人型アノテートデータセットに依存している。
半教師付き学習(SSL)は、トレーニングにラベルのないデータを活用することで、人間のアノテーションへの依存を減らすための一般的な手法である。
論文 参考訳(メタデータ) (2022-11-05T20:34:08Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。