論文の概要: Shuffle & Divide: Contrastive Learning for Long Text
- arxiv url: http://arxiv.org/abs/2304.09374v1
- Date: Wed, 19 Apr 2023 02:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:47:06.039527
- Title: Shuffle & Divide: Contrastive Learning for Long Text
- Title(参考訳): Shuffle & Divide: 長文のコントラスト学習
- Authors: Joonseok Lee, Seongho Joe, Kyoungwon Park, Bogun Kim, Hoyoung Kang,
Jaeseon Park, Youngjune Gwon
- Abstract要約: コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。
我々の手法の鍵は、単純なテキスト拡張アルゴリズムであるShuffle and Divide (SaD)である。
我々は、20のニュースグループ、Reuters-21578、BBC、BBCSportのデータセットで教師なしテキスト分類を行うことにより、我々の手法を実証的に評価した。
- 参考スコア(独自算出の注目度): 6.187839874846451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a self-supervised learning method for long text documents based on
contrastive learning. A key to our method is Shuffle and Divide (SaD), a simple
text augmentation algorithm that sets up a pretext task required for
contrastive updates to BERT-based document embedding. SaD splits a document
into two sub-documents containing randomly shuffled words in the entire
documents. The sub-documents are considered positive examples, leaving all
other documents in the corpus as negatives. After SaD, we repeat the
contrastive update and clustering phases until convergence. It is naturally a
time-consuming, cumbersome task to label text documents, and our method can
help alleviate human efforts, which are most expensive resources in AI. We have
empirically evaluated our method by performing unsupervised text classification
on the 20 Newsgroups, Reuters-21578, BBC, and BBCSport datasets. In particular,
our method pushes the current state-of-the-art, SS-SB-MT, on 20 Newsgroups by
20.94% in accuracy. We also achieve the state-of-the-art performance on
Reuters-21578 and exceptionally-high accuracy performances (over 95%) for
unsupervised classification on the BBC and BBCSport datasets.
- Abstract(参考訳): コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。
提案手法の鍵は shuffle and divide (sad) であり、bert ベースの文書埋め込みのコントラスト更新に必要なプリテキストタスクを設定するシンプルなテキスト拡張アルゴリズムである。
SaDは文書全体をランダムにシャッフルされた単語を含む2つのサブドキュメントに分割する。
サブ文書は肯定的な例と見なされ、コーパス内の他の全ての文書は否定的である。
SaDの後、コンバージェンスまでコントラスト更新とクラスタリングフェーズを繰り返します。
テキスト文書をラベル付けするのは当然時間を要する面倒な作業であり、私たちの手法はAIで最も高価なリソースである人間の努力を軽減するのに役立ちます。
我々は,20のニュースグループ,reuters-21578,bbc,bbcsportのデータセットに対して教師なしテキスト分類を行うことで,本手法を実証的に評価した。
特に,現在最先端のss-sb-mtを20のニュースグループに20.94%精度でプッシュする。
また,Reuters-21578の最先端性能と,BBCおよびBBCSportデータセットの教師なし分類において,95%以上の高精度性能を実現した。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。