論文の概要: GASE: Generatively Augmented Sentence Encoding
- arxiv url: http://arxiv.org/abs/2411.04914v1
- Date: Thu, 07 Nov 2024 17:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:59.659353
- Title: GASE: Generatively Augmented Sentence Encoding
- Title(参考訳): GASE: 生成的に拡張された文エンコーディング
- Authors: Manuel Frank, Haithem Afli,
- Abstract要約: 本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose an approach to enhance sentence embeddings by applying generative text models for data augmentation at inference time. Unlike conventional data augmentation that utilises synthetic training data, our approach does not require access to model parameters or the computational resources typically required for fine-tuning state-of-the-art models. Generatively Augmented Sentence Encoding uses diverse linguistic synthetic variants of input texts generated by paraphrasing, summarising, or extracting keywords, followed by pooling the original and synthetic embeddings. Experimental results on the Massive Text Embedding Benchmark for Semantic Textual Similarity (STS) demonstrate performance improvements across a range of embedding models using different generative models for augmentation. We find that generative augmentation leads to larger performance improvements for embedding models with lower baseline performance. These findings suggest that integrating generative augmentation at inference time adds semantic diversity and can enhance the robustness and generalizability of sentence embeddings for embedding models. Our results show that the degree to which generative augmentation can improve STS performance depends not only on the embedding model but also on the dataset. From a broader perspective, the approach allows trading training for inference compute.
- Abstract(参考訳): 本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
合成トレーニングデータを利用する従来のデータ拡張とは異なり、我々のアプローチでは、モデルパラメータや、通常、微調整された最先端モデルに必要な計算資源へのアクセスは必要としない。
Generatively Augmented Sentence Encodingは、パラフレーズ、要約、あるいはキーワードの抽出によって生成された入力テキストの多様な言語学的合成変種を使用し、その後、オリジナルおよび合成埋め込みをプールする。
意味的テクスチャ類似性のためのMassive Text Embedding Benchmark (STS)の実験結果は、拡張のために異なる生成モデルを用いた埋め込みモデルの範囲で性能改善を示す。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
これらの結果から,推論時における生成的拡張の統合は意味的多様性を増し,組込みモデルにおける文埋め込みの堅牢性と一般化性を高めることが示唆された。
この結果から, 生成的拡張がSTS性能を向上させる程度は, 組込みモデルだけでなく, データセットにも依存することがわかった。
より広い視点から見ると、このアプローチは推論計算のためのトレーディングトレーニングを可能にする。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Improving Discrete Diffusion Models via Structured Preferential Generation [25.784316302130875]
本稿では, 離散拡散モデルの改良に, 構造化前処理を導入して挑戦する。
提案手法は, 生成過程に偏り, 先行するカテゴリを生成させ, 結果としてtext8データセット上でのログライクなスコアが顕著に向上する。
論文 参考訳(メタデータ) (2024-05-28T07:11:30Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Data Augmentation for Neural Machine Translation using Generative
Language Model [1.5500145658862499]
大規模並列コーパスの不足は、Neural Machine Translationの主要なボトルネックとなっている。
データ拡張(Data augmentation)は、新しいデータを集める代わりに合成データを生成することによって、データハングリーモデルの性能を向上させる技術である。
本稿では,ChatGPTなどの大規模言語モデルを活用した,プロンプトベースのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-07-26T02:12:58Z) - Cross-Modal Generative Augmentation for Visual Question Answering [34.9601948665926]
本稿では,複数のモダリティ間の相関を利用したデータ拡張生成モデルを提案する。
提案したモデルは,生成確率によって拡張データの信頼度を定量化し,下流パイプラインと共同して更新することができる。
論文 参考訳(メタデータ) (2021-05-11T04:51:26Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。