論文の概要: Unsupervised Self-Training for Sentiment Analysis of Code-Switched Data
- arxiv url: http://arxiv.org/abs/2103.14797v1
- Date: Sat, 27 Mar 2021 03:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:25:04.915664
- Title: Unsupervised Self-Training for Sentiment Analysis of Code-Switched Data
- Title(参考訳): コード切替データの知覚分析のための教師なし自己学習
- Authors: Akshat Gupta, Sargam Menghani, Sai Krishna Rallabandi, Alan W Black
- Abstract要約: コード切替データの感情分析のためのUnsupervised Self-Trainingというフレームワークを提案する。
我々は、複数のコード交換言語でアルゴリズムをテストし、アルゴリズムの学習ダイナミクスの詳細な分析を提供する。
我々の教師なしモデルは教師付きモデルとよく競合し、2つのクラスで訓練された教師付きモデルと比較すると、その性能は1-7%(重み付きF1スコア)以内である。
- 参考スコア(独自算出の注目度): 42.75343703616873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is an important task in understanding social media content
like customer reviews, Twitter and Facebook feeds etc. In multilingual
communities around the world, a large amount of social media text is
characterized by the presence of Code-Switching. Thus, it has become important
to build models that can handle code-switched data. However, annotated
code-switched data is scarce and there is a need for unsupervised models and
algorithms. We propose a general framework called Unsupervised Self-Training
and show its applications for the specific use case of sentiment analysis of
code-switched data. We use the power of pre-trained BERT models for
initialization and fine-tune them in an unsupervised manner, only using pseudo
labels produced by zero-shot transfer. We test our algorithm on multiple
code-switched languages and provide a detailed analysis of the learning
dynamics of the algorithm with the aim of answering the question - `Does our
unsupervised model understand the Code-Switched languages or does it just learn
its representations?'. Our unsupervised models compete well with their
supervised counterparts, with their performance reaching within 1-7\% (weighted
F1 scores) when compared to supervised models trained for a two class problem.
- Abstract(参考訳): 感情分析は、顧客レビュー、Twitter、Facebookフィードなどのソーシャルメディアコンテンツを理解する上で重要なタスクである。
世界中の多言語コミュニティでは、大量のソーシャルメディアのテキストがコードスイッチの存在によって特徴づけられている。
したがって、コード交換されたデータを処理できるモデルを構築することが重要になっている。
しかし、注釈付きコード切り換えデータが少なく、教師なしのモデルやアルゴリズムが必要となる。
本稿では,教師なし自己学習と呼ばれる汎用フレームワークを提案し,コード交換データの感情分析の応用例を示す。
我々は、事前学習されたBERTモデルのパワーを初期化に利用し、ゼロショット転送によって生成された擬似ラベルのみを用いて教師なしで微調整する。
我々は、アルゴリズムを複数のコードスイッチト言語でテストし、"教師なしモデルはコードスイッチト言語を理解しているのか、あるいは単に表現を学習しているのか?
我々の教師なしモデルは教師付きモデルとよく競合し、2つのクラスで訓練された教師付きモデルと比較して、その性能は1-7\%(重み付きF1スコア)以内である。
関連論文リスト
- Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Zero-Shot Text Classification via Self-Supervised Tuning [46.9902502503747]
ゼロショットテキスト分類タスクを解決するための自己教師付き学習に基づく新しいパラダイムを提案する。
自己教師付きチューニングという,ラベルのないデータで言語モデルをチューニングする。
我々のモデルは10タスク中7タスクで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-19T05:47:33Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Federated Self-Supervised Learning of Multi-Sensor Representations for
Embedded Intelligence [8.110949636804772]
スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、教師付きモデルを学習するための集中リポジトリに蓄積できない豊富なデータを生成する。
本稿では,ウェーブレット変換に基づくテキストカルグラム・信号対応学習という自己教師付きアプローチを提案し,ラベルなしセンサ入力から有用な表現を学習する。
さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-07-25T21:59:17Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。