論文の概要: Snippext: Semi-supervised Opinion Mining with Augmented Data
- arxiv url: http://arxiv.org/abs/2002.03049v1
- Date: Fri, 7 Feb 2020 23:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:43:14.047870
- Title: Snippext: Semi-supervised Opinion Mining with Augmented Data
- Title(参考訳): Snippext: 拡張データによる半教師付きオピニオンマイニング
- Authors: Zhengjie Miao, Yuliang Li, Xiaolan Wang, Wang-Chiew Tan
- Abstract要約: Snippextは言語モデル上で開発された意見マイニングシステムである。
Snippextの斬新さは、ラベル付きトレーニングデータが少なく、最先端(SOTA)のパフォーマンスを達成するための2つの簡単なアプローチを巧妙に利用していることだ。
- 参考スコア(独自算出の注目度): 22.07271774127334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online services are interested in solutions to opinion mining, which is the
problem of extracting aspects, opinions, and sentiments from text. One method
to mine opinions is to leverage the recent success of pre-trained language
models which can be fine-tuned to obtain high-quality extractions from reviews.
However, fine-tuning language models still requires a non-trivial amount of
training data. In this paper, we study the problem of how to significantly
reduce the amount of labeled training data required in fine-tuning language
models for opinion mining. We describe Snippext, an opinion mining system
developed over a language model that is fine-tuned through semi-supervised
learning with augmented data. A novelty of Snippext is its clever use of a
two-prong approach to achieve state-of-the-art (SOTA) performance with little
labeled training data through: (1) data augmentation to automatically generate
more labeled training data from existing ones, and (2) a semi-supervised
learning technique to leverage the massive amount of unlabeled data in addition
to the (limited amount of) labeled data. We show with extensive experiments
that Snippext performs comparably and can even exceed previous SOTA results on
several opinion mining tasks with only half the training data required.
Furthermore, it achieves new SOTA results when all training data are leveraged.
By comparison to a baseline pipeline, we found that Snippext extracts
significantly more fine-grained opinions which enable new opportunities of
downstream applications.
- Abstract(参考訳): オンラインサービスは、テキストからアスペクト、意見、感情を抽出する問題である意見マイニングの解決策に興味を持っている。
意見を検討する一つの方法は、レビューから高品質な抽出を得るために微調整できる事前学習言語モデルの最近の成功を活用することである。
しかし、微調整の言語モデルは、いまだに大量のトレーニングデータを必要とする。
本稿では、意見マイニングのための微調整言語モデルに必要なラベル付きトレーニングデータの量を大幅に削減する方法について検討する。
Snippextは、言語モデル上で開発された意見マイニングシステムで、半教師付き学習と拡張データにより微調整される。
Snippext の新規性は,(1) ラベル付きトレーニングデータからラベル付きトレーニングデータを自動的に生成するデータ拡張,(2) ラベル付きラベル付きデータに加えて,大量のラベル付きデータを活用する半教師付き学習技術を通じて,最先端(SOTA)のパフォーマンスを実現するための2つのアプローチを巧妙に活用することにある。
本研究は,snippextが比較可能であり,トレーニングデータの半分しか必要としない複数の意見マイニングタスクにおいて,これまでのsoma結果を超えることさえ可能であることを示す。
さらに、すべてのトレーニングデータを活用すれば、新たなSOTA結果が得られる。
ベースラインパイプラインと比較して、Snippextはよりきめ細かな意見を抽出し、ダウンストリームアプリケーションの新たな機会を可能にします。
関連論文リスト
- Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。