論文の概要: Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity
- arxiv url: http://arxiv.org/abs/2208.13376v1
- Date: Mon, 29 Aug 2022 05:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:39:41.298079
- Title: Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity
- Title(参考訳): 文類似性のための合成データ同定に基づく重み付け戦略
- Authors: Taehee Kim, ChaeHun Park, Jimin Hong, Radhika Dua, Edward Choi and
Jaegul Choo
- Abstract要約: 機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
- 参考スコア(独自算出の注目度): 30.647497555295974
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semantically meaningful sentence embeddings are important for numerous tasks
in natural language processing. To obtain such embeddings, recent studies
explored the idea of utilizing synthetically generated data from pretrained
language models (PLMs) as a training corpus. However, PLMs often generate
sentences much different from the ones written by human. We hypothesize that
treating all these synthetic examples equally for training deep neural networks
can have an adverse effect on learning semantically meaningful embeddings. To
analyze this, we first train a classifier that identifies machine-written
sentences, and observe that the linguistic features of the sentences identified
as written by a machine are significantly different from those of human-written
sentences. Based on this, we propose a novel approach that first trains the
classifier to measure the importance of each sentence. The distilled
information from the classifier is then used to train a reliable sentence
embedding model. Through extensive evaluation on four real-world datasets, we
demonstrate that our model trained on synthetic data generalizes well and
outperforms the existing baselines. Our implementation is publicly available at
https://github.com/ddehun/coling2022_reweighting_sts.
- Abstract(参考訳): 意味のある文の埋め込みは自然言語処理における多くのタスクにおいて重要である。
このような組込みを実現するために、最近の研究は、トレーニングコーパスとして事前学習言語モデル(plms)からの合成データを利用するというアイデアを探求している。
しかし、plmは人間の文章とは大きく異なる文を生成することが多い。
これらすべての合成例を、深層ニューラルネットワークのトレーニングに等しく扱うことは、意味的に意味のある埋め込みの学習に悪影響を及ぼす可能性があると仮定する。
これを分析するために,まず,機械文を識別する分類器を訓練し,機械によって識別された文の言語的特徴が,人間文と大きく異なることを観察する。
そこで本研究では,まず分類器を訓練し,各文の重要度を計測する手法を提案する。
分類器からの蒸留情報は、信頼できる文埋め込みモデルを訓練するために使用される。
実世界の4つのデータセットを広範囲に評価することにより、合成データに基づいてトレーニングしたモデルが一般化し、既存のベースラインを上回っていることを示す。
実装はhttps://github.com/ddehun/coling2022_reweighting_stsで公開しています。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - A New Sentence Ordering Method Using BERT Pretrained Model [2.1793134762413433]
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
論文 参考訳(メタデータ) (2021-08-26T18:47:15Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。
実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文 参考訳(メタデータ) (2020-10-10T12:52:53Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。