論文の概要: Exploiting Unlabeled Data for Target-Oriented Opinion Words Extraction
- arxiv url: http://arxiv.org/abs/2208.08280v1
- Date: Wed, 17 Aug 2022 13:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:46:38.187992
- Title: Exploiting Unlabeled Data for Target-Oriented Opinion Words Extraction
- Title(参考訳): ターゲット指向オピニオンワード抽出のためのラベルなしデータの抽出
- Authors: Yidong Wang, Hao Wu, Ao Liu, Wenxin Hou, Zhen Wu, Jindong Wang,
Takahiro Shinozaki, Manabu Okumura, Yue Zhang
- Abstract要約: 本研究では,テストデータとトレーニングデータ間の分散シフトのリスクを低減するために,大量のラベルのないデータを活用することを提案する。
本稿では,無ラベルデータを利用する新しいMGCR法を提案し,TOWEに特化して2つのフィルタを設計し,異なる粒度でノイズデータをフィルタリングする。
- 参考スコア(独自算出の注目度): 32.98121084823483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Target-oriented Opinion Words Extraction (TOWE) is a fine-grained sentiment
analysis task that aims to extract the corresponding opinion words of a given
opinion target from the sentence. Recently, deep learning approaches have made
remarkable progress on this task. Nevertheless, the TOWE task still suffers
from the scarcity of training data due to the expensive data annotation
process. Limited labeled data increase the risk of distribution shift between
test data and training data. In this paper, we propose exploiting massive
unlabeled data to reduce the risk by increasing the exposure of the model to
varying distribution shifts. Specifically, we propose a novel Multi-Grained
Consistency Regularization (MGCR) method to make use of unlabeled data and
design two filters specifically for TOWE to filter noisy data at different
granularity. Extensive experimental results on four TOWE benchmark datasets
indicate the superiority of MGCR compared with current state-of-the-art
methods. The in-depth analysis also demonstrates the effectiveness of the
different-granularity filters. Our codes are available at
https://github.com/TOWESSL/TOWESSL.
- Abstract(参考訳): ToWE(Target-oriented Opinion Words extract)は、ある意見対象の対応する意見語を文から抽出することを目的とした、きめ細かい感情分析タスクである。
近年,この課題に対して深層学習のアプローチが顕著に進展している。
それでもTOWEタスクは、高価なデータアノテーションプロセスのため、トレーニングデータの不足に悩まされている。
ラベル付きデータはテストデータとトレーニングデータの間の分散シフトのリスクを高める。
本稿では,多変量分布シフトに対するモデルの露出を増大させることにより,膨大なラベルのないデータを利用してリスクを低減することを提案する。
具体的には,無ラベルデータを利用した新しい多粒度一貫性規則化(mgcr)法を提案し,異なる粒度でノイズデータをフィルタするtowe専用のフィルタを2つ設計する。
4つのTOWEベンチマークデータセットの大規模な実験結果は、現在の最先端手法と比較してMGCRの優位性を示している。
奥行き解析は、異なる粒度フィルタの有効性も示している。
私たちのコードはhttps://github.com/TOWESSL/TOWESSLで利用可能です。
関連論文リスト
- Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KG)を使用してエンティティや量を取り出す。
高いデータノイズに対処するため、GCSEモデルは偽硬陰性サンプルの影響を制限するためにガウス分解関数を使用する。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data [0.0]
本研究では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張を提案する。
トレーニングデータを拡張するために、ラベルのないデータをデータ拡張に活用する。
潜在変数は、最終分類器の入力としてラベル付きおよびラベルなしのデータから得ることができる。
論文 参考訳(メタデータ) (2024-07-06T07:51:24Z) - Exploring the Boundaries of Semi-Supervised Facial Expression
Recognition: Learning from In-Distribution, Out-of-Distribution, and
Unconstrained Data [19.442685015494316]
表情認識(FER)における最新の半教師あり手法11について検討する。
本研究は,非流通,アウト・オブ・ディストリビューション,制約のない,非常に小さなデータからの半教師付き学習を対象とする。
以上の結果から,FixMatchは非分散データに対して常に優れたパフォーマンスを実現していることを示す一方,ReMixMatchは非分散データ,非制約データ,希少データシナリオにおいて,すべてのメソッドにおいて際立っている。
論文 参考訳(メタデータ) (2023-06-02T01:40:08Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。