論文の概要: Unsupervised Document Embedding via Contrastive Augmentation
- arxiv url: http://arxiv.org/abs/2103.14542v1
- Date: Fri, 26 Mar 2021 15:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:49:42.999482
- Title: Unsupervised Document Embedding via Contrastive Augmentation
- Title(参考訳): コントラスト拡張による教師なし文書埋め込み
- Authors: Dongsheng Luo, Wei Cheng, Jingchao Ni, Wenchao Yu, Xuchao Zhang, Bo
Zong, Yanchi Liu, Zhengzhang Chen, Dongjin Song, Haifeng Chen, Xiang Zhang
- Abstract要約: 本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。
画像と事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは様々なパラフレーズに不変であるべきだと仮定した。
本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。
- 参考スコア(独自算出の注目度): 48.71917352110245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a contrasting learning approach with data augmentation techniques
to learn document representations in an unsupervised manner. Inspired by recent
contrastive self-supervised learning algorithms used for image and NLP
pretraining, we hypothesize that high-quality document embedding should be
invariant to diverse paraphrases that preserve the semantics of the original
document. With different backbones and contrastive learning frameworks, our
study reveals the enormous benefits of contrastive augmentation for document
representation learning with two additional insights: 1) including data
augmentation in a contrastive way can substantially improve the embedding
quality in unsupervised document representation learning, and 2) in general,
stochastic augmentations generated by simple word-level manipulation work much
better than sentence-level and document-level ones. We plug our method into a
classifier and compare it with a broad range of baseline methods on six
benchmark datasets. Our method can decrease the classification error rate by up
to 6.4% over the SOTA approaches on the document classification task, matching
or even surpassing fully-supervised methods.
- Abstract(参考訳): 本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。
画像とnlpの事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは、元の文書の意味を保存できる多様なパラフレーズに不変であるべきだと仮定した。
異なるバックボーンとコントラスト学習フレームワークを用いて, 文書表現学習におけるコントラスト強化の膨大なメリットを, 1) 文書表現学習における埋め込み品質を大幅に向上させることができること,2) 一般には, 単純な単語レベルの操作によって生成される確率的拡張は, 文レベルや文書レベルの学習よりもはるかに優れていること,の2つによって明らかにした。
このメソッドを分類器にプラグインし、6つのベンチマークデータセット上の幅広いベースラインメソッドと比較します。
本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。
関連論文リスト
- DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。
この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文 参考訳(メタデータ) (2023-05-01T02:04:36Z) - Differentiable Data Augmentation for Contrastive Sentence Representation
Learning [6.398022050054328]
提案手法は, 半教師付き設定と教師付き設定の両方において, 既存手法よりも大幅に改善されている。
また,低ラベルデータ設定による実験により,本手法は最先端のコントラスト学習法よりもラベル効率が高いことが示された。
論文 参考訳(メタデータ) (2022-10-29T08:57:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Constructing Contrastive samples via Summarization for Text
Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。
我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。
実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2021-04-11T20:13:24Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。