論文の概要: Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text
Models
- arxiv url: http://arxiv.org/abs/2108.08877v1
- Date: Thu, 19 Aug 2021 18:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:32:08.984888
- Title: Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text
Models
- Title(参考訳): Sentence-T5: 事前訓練されたテキスト-テキストモデルからのスケーラブルな文エンコーダ
- Authors: Jianmo Ni, Gustavo Hern\'andez {\'A}brego, Noah Constant, Ji Ma, Keith
B. Hall, Daniel Cer, Yinfei Yang
- Abstract要約: テキスト・トゥ・テキスト・トランスフォーマー (T5) 文の埋め込みを初めて行う。
本稿では,T5文の埋め込みを抽出する3つの方法について検討する。
エンコーダのみのモデルは、転送タスクとセマンティックテキストの類似性の両方においてBERTベースの文埋め込みよりも優れています。
- 参考スコア(独自算出の注目度): 10.645591218689058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide the first exploration of text-to-text transformers (T5) sentence
embeddings. Sentence embeddings are broadly useful for language processing
tasks. While T5 achieves impressive performance on language tasks cast as
sequence-to-sequence mapping problems, it is unclear how to produce sentence
embeddings from encoder-decoder models. We investigate three methods for
extracting T5 sentence embeddings: two utilize only the T5 encoder and one uses
the full T5 encoder-decoder model. Our encoder-only models outperforms
BERT-based sentence embeddings on both transfer tasks and semantic textual
similarity (STS). Our encoder-decoder method achieves further improvement on
STS. Scaling up T5 from millions to billions of parameters is found to produce
consistent improvements on downstream tasks. Finally, we introduce a two-stage
contrastive learning approach that achieves a new state-of-art on STS using
sentence embeddings, outperforming both Sentence BERT and SimCSE.
- Abstract(参考訳): テキスト・トゥ・テキスト・トランスフォーマー (T5) 文の埋め込みを初めて行う。
文の埋め込みは言語処理タスクに広く有用である。
t5はシーケンシャル-シーケンスマッピング問題としてキャストされた言語タスクで印象的なパフォーマンスを達成しているが、エンコーダ-デコーダモデルから文を埋め込む方法が不明である。
本稿では,T5エンコーダのみを使用し,T5エンコーダ-デコーダモデルを用いて,T5文埋め込みを抽出する3つの手法について検討する。
エンコーダのみのモデルは、転送タスクとセマンティックテキスト類似性(STS)の両方においてBERTベースの文埋め込みよりも優れている。
エンコーダデコーダ法はSTSのさらなる改良を実現する。
数百万から数十億のパラメータへのT5のスケールアップは、下流タスクで一貫した改善をもたらす。
最後に,2段階のコントラスト学習手法を導入し,文埋め込みによるSTSにおける新しい最先端の学習を実現する。
関連論文リスト
- MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - Evaluating Byte and Wordpiece Level Models for Massively Multilingual
Semantic Parsing [3.431659287330068]
バイトレベル(ByT5)とワードピースベース(mT5)をMASSIVE多言語意味解析データセットの51言語におけるシーケンスモデルと比較する。
すべての言語からのゴールドデータに基づいてトレーニングされたモデルに対して、正確なマッチング精度のギャップを5ポイントに縮めることができます。
論文 参考訳(メタデータ) (2022-12-14T13:48:32Z) - EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start [21.4394742421462]
EdiT5は、半自動的なテキスト編集アプローチである。
非自己回帰的テキスト編集と自己回帰的復号の長所を兼ね備えている。
論文 参考訳(メタデータ) (2022-05-24T17:13:22Z) - TransAug: Translate as Augmentation for Sentence Embeddings [8.89078869712101]
本稿では,翻訳文ペアをテキスト用データ拡張として活用するための最初の調査であるTransAugについて述べる。
他の言語設定で訓練されたエンコーダを採用する代わりに、まず中国語のエンコーダをSimCSEエンコーダから蒸留し、その埋め込みが意味空間に近いようにし、暗黙のデータ拡張として分解することができる。
提案手法は,SimCSEとSentence-T5の両性能を向上し,SentEvalが評価したトランスファータスクにおいて,対応するトラックにおける最高のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-30T03:13:28Z) - EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks [9.141586109808895]
我々は、T5のような微調整済みのエンコーダデコーダモデルについて検討する。
実験の結果, T5 のパラメータの半分未満の textbfEncT5 は GLUE ベンチマークの T5 モデルと同様の性能を示した。
論文 参考訳(メタデータ) (2021-10-16T00:50:08Z) - SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language
Processing [77.4527868307914]
本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。
SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。
テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:59:27Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。