Fugu-MT 論文翻訳(概要): Unsupervised Document Embedding via Contrastive Augmentation

論文の概要: Unsupervised Document Embedding via Contrastive Augmentation

arxiv url: http://arxiv.org/abs/2103.14542v1
Date: Fri, 26 Mar 2021 15:48:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-29 12:49:42.999482
Title: Unsupervised Document Embedding via Contrastive Augmentation
Title（参考訳）: コントラスト拡張による教師なし文書埋め込み
Authors: Dongsheng Luo, Wei Cheng, Jingchao Ni, Wenchao Yu, Xuchao Zhang, Bo Zong, Yanchi Liu, Zhengzhang Chen, Dongjin Song, Haifeng Chen, Xiang Zhang
Abstract要約: 本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。画像と事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは様々なパラフレーズに不変であるべきだと仮定した。本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。
参考スコア（独自算出の注目度）: 48.71917352110245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a contrasting learning approach with data augmentation techniques to learn document representations in an unsupervised manner. Inspired by recent contrastive self-supervised learning algorithms used for image and NLP pretraining, we hypothesize that high-quality document embedding should be invariant to diverse paraphrases that preserve the semantics of the original document. With different backbones and contrastive learning frameworks, our study reveals the enormous benefits of contrastive augmentation for document representation learning with two additional insights: 1) including data augmentation in a contrastive way can substantially improve the embedding quality in unsupervised document representation learning, and 2) in general, stochastic augmentations generated by simple word-level manipulation work much better than sentence-level and document-level ones. We plug our method into a classifier and compare it with a broad range of baseline methods on six benchmark datasets. Our method can decrease the classification error rate by up to 6.4% over the SOTA approaches on the document classification task, matching or even surpassing fully-supervised methods.
Abstract（参考訳）: 本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。画像とnlpの事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは、元の文書の意味を保存できる多様なパラフレーズに不変であるべきだと仮定した。異なるバックボーンとコントラスト学習フレームワークを用いて, 文書表現学習におけるコントラスト強化の膨大なメリットを, 1) 文書表現学習における埋め込み品質を大幅に向上させることができること,2) 一般には, 単純な単語レベルの操作によって生成される確率的拡張は, 文レベルや文書レベルの学習よりもはるかに優れていること,の2つによって明らかにした。このメソッドを分類器にプラグインし、6つのベンチマークデータセット上の幅広いベースラインメソッドと比較します。本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。

関連論文リスト

Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文参考訳（メタデータ） (2023-11-16T07:16:02Z)
Towards Unsupervised Recognition of Token-level Semantic Differences in Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2023-05-22T17:58:04Z)
A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文参考訳（メタデータ） (2023-05-01T02:04:36Z)
Differentiable Data Augmentation for Contrastive Sentence Representation Learning [6.398022050054328]
提案手法は, 半教師付き設定と教師付き設定の両方において, 既存手法よりも大幅に改善されている。また,低ラベルデータ設定による実験により,本手法は最先端のコントラスト学習法よりもラベル効率が高いことが示された。
論文参考訳（メタデータ） (2022-10-29T08:57:45Z)
Constructing Contrastive samples via Summarization for Text Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文参考訳（メタデータ） (2021-04-11T20:13:24Z)
Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文参考訳（メタデータ） (2020-10-03T02:52:28Z)
SPECTER: Document-level Representation Learning using Citation-informed Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。 SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文参考訳（メタデータ） (2020-04-15T16:05:51Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。