論文の概要: TransAug: Translate as Augmentation for Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2111.00157v1
- Date: Sat, 30 Oct 2021 03:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 15:00:03.125823
- Title: TransAug: Translate as Augmentation for Sentence Embeddings
- Title(参考訳): TransAug: 文の埋め込みのための拡張としての翻訳
- Authors: Jue Wang, Haofan Wang, Xing Wu, Chaochen Gao, Debing Zhang
- Abstract要約: 本稿では,翻訳文ペアをテキスト用データ拡張として活用するための最初の調査であるTransAugについて述べる。
他の言語設定で訓練されたエンコーダを採用する代わりに、まず中国語のエンコーダをSimCSEエンコーダから蒸留し、その埋め込みが意味空間に近いようにし、暗黙のデータ拡張として分解することができる。
提案手法は,SimCSEとSentence-T5の両性能を向上し,SentEvalが評価したトランスファータスクにおいて,対応するトラックにおける最高のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 8.89078869712101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While contrastive learning greatly advances the representation of sentence
embeddings, it is still limited by the size of the existing sentence datasets.
In this paper, we present TransAug (Translate as Augmentation), which provide
the first exploration of utilizing translated sentence pairs as data
augmentation for text, and introduce a two-stage paradigm to advances the
state-of-the-art sentence embeddings. Instead of adopting an encoder trained in
other languages setting, we first distill a Chinese encoder from a SimCSE
encoder (pretrained in English), so that their embeddings are close in semantic
space, which can be regraded as implicit data augmentation. Then, we only
update the English encoder via cross-lingual contrastive learning and frozen
the distilled Chinese encoder. Our approach achieves a new state-of-art on
standard semantic textual similarity (STS), outperforming both SimCSE and
Sentence-T5, and the best performance in corresponding tracks on transfer tasks
evaluated by SentEval.
- Abstract(参考訳): コントラスト学習は文埋め込みの表現を大きく進歩させるが、既存の文データセットのサイズによってはまだ制限されている。
本稿では,翻訳文対をテキストデータ補完として利用する最初の試みであるtransaug(translate as augmentedation)と,最先端文埋め込みを前進させるための2段階パラダイムを提案する。
他の言語設定で訓練されたエンコーダを採用する代わりに、まず中国語のエンコーダをSimCSEエンコーダから蒸留し、その埋め込みが意味空間に近いようにし、暗黙のデータ拡張として分解することができる。
そして、英語エンコーダを言語横断のコントラスト学習で更新し、蒸留した中国語エンコーダを凍結する。
提案手法は,SimCSEとSentence-T5の両性能を向上し,SentEvalが評価したトランスファータスクにおいて,対応するトラックにおける最高のパフォーマンスを実現する。
関連論文リスト
- Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - UTSGAN: Unseen Transition Suss GAN for Transition-Aware Image-to-image
Translation [57.99923293611923]
我々はI2Iトランスフォーメーションに対してトランジッションアウェアアプローチを導入し、データトランスフォーメーションマッピングをトランジッション変数で明示的にパラメータ化する。
本稿では、遷移変数に定義された遷移整合性を利用することにより、観測されていない翻訳における整合性の正規化を可能にする。
これらの知見に基づき、遷移エンコーダを用いた遷移のための多様体を構成する生成フレームワークである Unseen transition Suss GAN (UTSGAN) を提案する。
論文 参考訳(メタデータ) (2023-04-24T09:47:34Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text
Models [10.645591218689058]
テキスト・トゥ・テキスト・トランスフォーマー (T5) 文の埋め込みを初めて行う。
本稿では,T5文の埋め込みを抽出する3つの方法について検討する。
エンコーダのみのモデルは、転送タスクとセマンティックテキストの類似性の両方においてBERTベースの文埋め込みよりも優れています。
論文 参考訳(メタデータ) (2021-08-19T18:58:02Z) - Discrete Cosine Transform as Universal Sentence Encoder [10.355894890759377]
我々は離散コサイン変換(DCT)を用いて、異なる言語に対する普遍的な文表現を生成する。
実験結果からDCT符号化の有効性が明らかとなった。
論文 参考訳(メタデータ) (2021-06-02T04:43:54Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。