論文の概要: An Efficient Self-Supervised Cross-View Training For Sentence Embedding
- arxiv url: http://arxiv.org/abs/2311.03228v1
- Date: Mon, 6 Nov 2023 16:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:49:09.365519
- Title: An Efficient Self-Supervised Cross-View Training For Sentence Embedding
- Title(参考訳): 文章埋め込みのための自己監督型クロスビュー学習
- Authors: Peerat Limkonchotiwat, Wuttikorn Ponwitayarat, Lalita Lowphansirikul,
Can Udomcharoenchaikit, Ekapol Chuangsuwanich, Sarana Nutanong
- Abstract要約: 本研究では,大規模PLMと小規模PLMのパフォーマンスギャップを狭めるためのSCT(Self-supervised Cross-View Training)というフレームワークを提案する。
実験の結果,STCは21例中18例において,100M未満のパラメータを持つPLMの競合よりも優れていた。
- 参考スコア(独自算出の注目度): 13.735380882114308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised sentence representation learning is the task of constructing
an embedding space for sentences without relying on human annotation efforts.
One straightforward approach is to finetune a pretrained language model (PLM)
with a representation learning method such as contrastive learning. While this
approach achieves impressive performance on larger PLMs, the performance
rapidly degrades as the number of parameters decreases. In this paper, we
propose a framework called Self-supervised Cross-View Training (SCT) to narrow
the performance gap between large and small PLMs. To evaluate the effectiveness
of SCT, we compare it to 5 baseline and state-of-the-art competitors on seven
Semantic Textual Similarity (STS) benchmarks using 5 PLMs with the number of
parameters ranging from 4M to 340M. The experimental results show that STC
outperforms the competitors for PLMs with less than 100M parameters in 18 of 21
cases.
- Abstract(参考訳): 自己教師型文表現学習は、人間のアノテーションに頼らずに、文章の埋め込み空間を構築するタスクである。
1つの簡単なアプローチは、事前訓練された言語モデル(PLM)をコントラスト学習のような表現学習手法で微調整することである。
このアプローチはより大きなplmで印象的なパフォーマンスを実現するが、パラメータ数の減少に伴ってパフォーマンスは急速に低下する。
本稿では,大規模PLMと小規模PLMのパフォーマンスギャップを狭めるためのSCT(Self-supervised Cross-View Training)というフレームワークを提案する。
SCTの有効性を評価するために,5つのPLMを用いた7つのセマンティックテキスト類似度(STS)ベンチマークにおいて,4Mから340Mまでのパラメータ数で5つのベースラインおよび最先端の競合と比較した。
実験の結果,STCは21例中18例において,100M未満のパラメータを持つPLMの競合よりも優れていた。
関連論文リスト
- TracrBench: Generating Interpretability Testbeds with Large Language Models [0.9208007322096533]
Tracrは、RASPで固有の基底真理写像を持つコンパイルされたトランスフォーマーを生成する方法である。
大規模言語モデル(LLM)を用いた解釈可能性テストベッド生成のための新しい手法を提案する。
TracrBench は手書き 121 と LLM 生成の人間バリデーション RASP プログラムとそれに対応するトランスフォーマーウェイトで構成されている。
論文 参考訳(メタデータ) (2024-09-07T10:02:51Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。