論文の概要: Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations
- arxiv url: http://arxiv.org/abs/2109.13059v2
- Date: Tue, 28 Sep 2021 15:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 12:23:05.313833
- Title: Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations
- Title(参考訳): トランスエンコーダ:自己および相互蒸留による教師なし文対モデリング
- Authors: Fangyu Liu, Yunlong Jiao, Jordan Massiah, Emine Yilmaz, Serhii
Havrylov
- Abstract要約: バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
- 参考スコア(独自算出の注目度): 22.40667024030858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In NLP, a large volume of tasks involve pairwise comparison between two
sequences (e.g. sentence similarity and paraphrase identification).
Predominantly, two formulations are used for sentence-pair tasks: bi-encoders
and cross-encoders. Bi-encoders produce fixed-dimensional sentence
representations and are computationally efficient, however, they usually
underperform cross-encoders. Cross-encoders can leverage their attention heads
to exploit inter-sentence interactions for better performance but they require
task fine-tuning and are computationally more expensive. In this paper, we
present a completely unsupervised sentence representation model termed as
Trans-Encoder that combines the two learning paradigms into an iterative joint
framework to simultaneously learn enhanced bi- and cross-encoders.
Specifically, on top of a pre-trained Language Model (PLM), we start with
converting it to an unsupervised bi-encoder, and then alternate between the bi-
and cross-encoder task formulations. In each alternation, one task formulation
will produce pseudo-labels which are used as learning signals for the other
task formulation. We then propose an extension to conduct such
self-distillation approach on multiple PLMs in parallel and use the average of
their pseudo-labels for mutual-distillation. Trans-Encoder creates, to the best
of our knowledge, the first completely unsupervised cross-encoder and also a
state-of-the-art unsupervised bi-encoder for sentence similarity. Both the
bi-encoder and cross-encoder formulations of Trans-Encoder outperform recently
proposed state-of-the-art unsupervised sentence encoders such as Mirror-BERT
and SimCSE by up to 5% on the sentence similarity benchmarks.
- Abstract(参考訳): NLPでは、大量のタスクが2つのシーケンス(例えば、文の類似性とパラフレーズの識別)をペアで比較する。
主に、バイエンコーダとクロスエンコーダという2つの文ペアタスクで使われる。
バイエンコーダは固定次元の文表現を生成し、計算効率が良いが、通常はクロスエンコーダは性能が劣る。
クロスエンコーダはアテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができるが、タスクの微調整が必要であり、計算コストも高い。
本稿では,この2つの学習パラダイムを反復的なジョイントフレームワークに組み合わせることによって,拡張されたbiおよびクロスエンコーダを同時に学習する,トランスエンコーダと呼ばれる教師なし文表現モデルを提案する。
具体的には、事前訓練された言語モデル(PLM)の上に、教師なしのバイエンコーダに変換し、次にバイアン/クロスエンコーダタスクの定式化を交互に行う。
各交替において、1つのタスク定式化は、他のタスク定式化の学習信号として使用される擬似ラベルを生成する。
次に,複数のPLMに対して並列に自己蒸留を行うための拡張法を提案し,その擬似ラベルの平均値を用いて相互蒸留を行う。
Trans-Encoderは、私たちの知る限りでは、最初の完全に教師なしのクロスエンコーダと、文類似性のための最先端の教師なしバイエンコーダを生成する。
トランスエンコーダのバイエンコーダとクロスエンコーダの定式化は、最近Mirror-BERTやSimCSEのような最先端の教師なしの文エンコーダを、文類似性ベンチマークで最大5%向上させた。
関連論文リスト
- How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - CrossMPT: Cross-attention Message-Passing Transformer for Error Correcting Codes [14.631435001491514]
クロスアテンションメッセージパージングトランス(CrossMPT)を提案する。
また、CrossMPTは、既存のニューラルネットワークベースのデコーダを、様々なコードクラスで大幅に上回っていることを示す。
特に、CrossMPTは、メモリ使用量、複雑性、推論時間、トレーニング時間を著しく削減しながら、このデコードパフォーマンスの改善を実現している。
論文 参考訳(メタデータ) (2024-05-02T06:30:52Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Lossless Acceleration for Seq2seq Generation with Aggressive Decoding [74.12096349944497]
アグレッシブデコーディング(Aggressive Decoding)は、セq2seq生成のための新しいデコーディングアルゴリズムである。
提案手法は, 自己回帰復号法と比較し, 同一(あるいは良好な)生成を実現することを目的としている。
複数のSeq2seqタスクにおいて、GPU上で最も人気のある6層トランスフォーマーモデル上で、攻撃的デコーディングをテストする。
論文 参考訳(メタデータ) (2022-05-20T17:59:00Z) - ConvFiT: Conversational Fine-Tuning of Pretrained Language Models [42.7160113690317]
大規模なテキストコレクションに事前訓練されたトランスフォーマーベース言語モデル(LM)は、豊富なセマンティック知識を保存できることが証明されている。
本稿では,任意の事前学習したLMをユニバーサルな会話エンコーダに変換する,シンプルで効率的な2段階の手順であるConvFiTを提案する。
論文 参考訳(メタデータ) (2021-09-21T12:16:56Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for
Pairwise Sentence Scoring Tasks [59.13635174016506]
本稿では,Augmented SBERTと呼ばれる単純なデータ拡張戦略を提案する。
クロスエンコーダを用いて、より大きな入力ペアのセットをラベル付けし、バイエンコーダのトレーニングデータを増強する。
このプロセスでは,文ペアの選択は非自明であり,提案手法の成功には不可欠であることを示す。
論文 参考訳(メタデータ) (2020-10-16T08:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。