論文の概要: WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data
augmentation in tExt Regression Tasks
- arxiv url: http://arxiv.org/abs/2303.02758v1
- Date: Sun, 5 Mar 2023 19:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 17:58:21.555552
- Title: WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data
augmentation in tExt Regression Tasks
- Title(参考訳): SemEval-2023 Task 9: tExt 回帰タスクにおけるデータ拡張のための弱層化フレームワーク
- Authors: Manan Suri, Aaryak Garg, Divya Chaudhary, Ian Gorton, Bijendra Kumar
- Abstract要約: 本稿では、WADERと呼ばれるテキスト回帰タスクにおいて、データ拡張のための新しい弱ラベル方式を提案する。
我々は、WADERを用いて、事前訓練された多言語言語モデルの性能をベンチマークし、データのバイアスを軽減するためにサンプリング技術を用いて分析する。
- 参考スコア(独自算出の注目度): 4.102007186133394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intimacy is an essential element of human relationships and language is a
crucial means of conveying it. Textual intimacy analysis can reveal social
norms in different contexts and serve as a benchmark for testing computational
models' ability to understand social information. In this paper, we propose a
novel weak-labeling strategy for data augmentation in text regression tasks
called WADER. WADER uses data augmentation to address the problems of data
imbalance and data scarcity and provides a method for data augmentation in
cross-lingual, zero-shot tasks. We benchmark the performance of
State-of-the-Art pre-trained multilingual language models using WADER and
analyze the use of sampling techniques to mitigate bias in data and optimally
select augmentation candidates. Our results show that WADER outperforms the
baseline model and provides a direction for mitigating data imbalance and
scarcity in text regression tasks.
- Abstract(参考訳): 親密性は人間関係の重要な要素であり、言語はそれを伝える重要な手段である。
テキスト親密性分析は、異なる文脈における社会的規範を明らかにし、社会情報を理解する計算モデルの能力をテストするためのベンチマークとして機能する。
本稿では,waderと呼ばれるテキスト回帰タスクにおけるデータ拡張のための新しい弱いラベル戦略を提案する。
WADERはデータ不均衡とデータ不足の問題に対処するためにデータ拡張を使用し、言語横断的なゼロショットタスクにおけるデータ拡張の方法を提供する。
最新の事前学習された多言語モデルの性能をwaderを用いてベンチマークし,データバイアス軽減のためのサンプリング手法を解析し,拡張候補を最適に選択する。
その結果,waderはベースラインモデルよりも優れており,テキストレグレッションタスクにおけるデータの不均衡や不足を緩和する方向を示している。
関連論文リスト
- DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - On the Usability of Transformers-based models for a French
Question-Answering task [2.44288434255221]
本稿では,大規模学習問題におけるトランスフォーマーに基づく言語モデルのユーザビリティに着目した。
本稿では,低リソース環境下での競合性を示すFrALBERTの新しいコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2022-07-19T09:46:15Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。