論文の概要: Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
- arxiv url: http://arxiv.org/abs/2310.10962v2
- Date: Fri, 17 May 2024 06:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:33:24.057469
- Title: Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
- Title(参考訳): 大規模言語モデルでは、より良い文表現学習のための生成を対照的に再定義できる
- Authors: Huiming Wang, Zhaodonghui Li, Liying Cheng, Soh De Wen, Lidong Bing,
- Abstract要約: 大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
- 参考スコア(独自算出の注目度): 57.74233319453229
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, large language models (LLMs) have emerged as a groundbreaking technology and their unparalleled text generation capabilities have sparked interest in their application to the fundamental sentence representation learning task. Existing methods have explored utilizing LLMs as data annotators to generate synthesized data for training contrastive learning based sentence embedding models such as SimCSE. However, since contrastive learning models are sensitive to the quality of sentence pairs, the effectiveness of these methods is largely influenced by the content generated from LLMs, highlighting the need for more refined generation in the context of sentence representation learning. Building upon this premise, we propose MultiCSR, a multi-level contrastive sentence representation learning framework that decomposes the process of prompting LLMs to generate a corpus for training base sentence embedding models into three stages (i.e., sentence generation, sentence pair construction, in-batch training) and refines the generated content at these three distinct stages, ensuring only high-quality sentence pairs are utilized to train a base contrastive learning model. Our extensive experiments reveal that MultiCSR enables a less advanced LLM to surpass the performance of ChatGPT, while applying it to ChatGPT achieves better state-of-the-art results. Comprehensive analyses further underscore the potential of our framework in various application scenarios and achieving better sentence representation learning with LLMs.
- Abstract(参考訳): 近年,大きな言語モデル (LLM) が画期的な技術として登場し,その非並列テキスト生成能力が基本文表現学習タスクへの関心を喚起している。
既存の手法では,データアノテータとしてLLMを活用して,SimCSEのようなコントラスト学習に基づく文埋め込みモデルを訓練するための合成データを生成する方法が検討されている。
しかし、コントラスト学習モデルは文対の品質に敏感であるため、これらの手法の有効性はLLMから生成された内容に大きく影響され、文表現学習の文脈においてより洗練された生成の必要性が強調される。
この前提に基づき、多段階のコントラスト表現学習フレームワークであるMultiCSRを提案し、LLMに学習ベース文埋め込みモデルを生成するためのコーパスを3段階(文生成、文ペア構築、バッチ内学習)に分解し、これらの3段階で生成されたコンテンツを洗練し、高品質な文ペアのみがベースコントラスト学習モデルを訓練する。
我々の広範な実験により、MultiCSRは、より高度なLCMがChatGPTの性能を上回り、ChatGPTに適用することで、最先端の成果を達成できることがわかった。
包括的分析は、様々なアプリケーションシナリオにおける我々のフレームワークの可能性をさらに浮き彫りにし、LLMによるより良い文表現学習を実現する。
関連論文リスト
- Examining the Robustness of Large Language Models across Language Complexity [19.184633713069353]
大規模言語モデル(LLM)は、学生が学習を理解し評価するために生成したテキスト成果物を分析する。
本研究では,数学の問題解決において,学生の自己制御学習(SRL)を検出するLLMベースの学生モデルのロバスト性について検討した。
論文 参考訳(メタデータ) (2025-01-30T20:33:59Z) - When Text Embedding Meets Large Language Model: A Comprehensive Survey [17.263184207651072]
テキスト埋め込みは、ディープラーニング時代に自然言語処理(NLP)の基礎技術となった。
大規模言語モデル(LLM)と3つの主題に埋め込まれたテキストの相互作用を分類する。
我々は,LLM 以前の言語モデル (PLM) を用いて,LLM 以前の未解決課題を強調し,LLM がもたらした新たな障害を探求する。
論文 参考訳(メタデータ) (2024-12-12T10:50:26Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。