論文の概要: Zero and Few-shot Learning for Author Profiling
- arxiv url: http://arxiv.org/abs/2204.10543v1
- Date: Fri, 22 Apr 2022 07:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:20:43.981528
- Title: Zero and Few-shot Learning for Author Profiling
- Title(参考訳): 著者プロファイリングのためのゼロとFew-shot学習
- Authors: Mara Chinea-Rios and Thomas M\"uller and Gretel Liz De la Pe\~na
Sarrac\'en and Francisco Rangel and Marc Franco-Salvador
- Abstract要約: 著者プロファイルは、言語がどのように人々間で共有されるかを分析することによって、著者の特徴を分類する。
スペイン語と英語のいくつかのプロファイリングタスクにおいて,包含度に基づくゼロと少数ショットの異なるモデルを探索し,システムの評価を行う。
- 参考スコア(独自算出の注目度): 4.208594148115529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Author profiling classifies author characteristics by analyzing how language
is shared among people. In this work, we study that task from a low-resource
viewpoint: using little or no training data. We explore different zero and
few-shot models based on entailment and evaluate our systems on several
profiling tasks in Spanish and English. In addition, we study the effect of
both the entailment hypothesis and the size of the few-shot training sample. We
find that entailment-based models out-perform supervised text classifiers based
on roberta-XLM and that we can reach 80% of the accuracy of previous approaches
using less than 50\% of the training data on average.
- Abstract(参考訳): 著者プロファイルは、人の間で言語がどのように共有されるかを分析して著者の特徴を分類する。
本研究では,そのタスクを低リソースの視点から検討する。
スペイン語と英語のいくつかのプロファイリングタスクにおいて,包含度に基づくゼロと少数ショットの異なるモデルを探索し,システムの評価を行う。
さらに, 包含仮説の効果と, 数発訓練試料の大きさについて検討した。
また,ロベルタXLMに基づく教師付きテキスト分類器の精度は,平均50%未満のトレーニングデータを用いて,従来の手法の精度の80%に到達できることがわかった。
関連論文リスト
- Inferring Latent Class Statistics from Text for Robust Visual Few-Shot
Learning [4.300029426596762]
本稿では,各クラスにおける視覚的特徴分布の平均と共分散を予測するために,テキスト由来の統計情報を活用する新しい手法を提案する。
提案手法は,テキストを用いて分布の平均と共分散を予測し,数発の学習シナリオにおいて有望な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-11-24T15:23:47Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Revisiting Sample Size Determination in Natural Language Understanding [18.637079595450366]
特定のモデルのパフォーマンスを達成するために、どれだけのデータポイントをラベル付けする必要があるかを正確に知ることは、アノテーションの全体的な予算を削減するための有益なステップである。
我々は,少量のトレーニングサンプルに基づいて,達成可能なモデルの最大性能を予測するための,シンプルで効果的な手法を導出した。
論文 参考訳(メタデータ) (2023-07-01T16:08:52Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Towards Few-Shot Fact-Checking via Perplexity [40.11397284006867]
そこで本研究では,言語モデルの強力な伝達学習能力をパープレキシティスコアで活用する新しい手法を提案する。
私たちの方法論は、F1-Macroメトリックの絶対10%以上のメジャークラスベースラインをすでに上回ることができます。
COVID-19に関連する2つの新しいファクトチェックデータセットを構築し、公開します。
論文 参考訳(メタデータ) (2021-03-17T09:43:19Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。