論文の概要: Scaling Sentence Embeddings with Large Language Models
- arxiv url: http://arxiv.org/abs/2307.16645v1
- Date: Mon, 31 Jul 2023 13:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:32:02.036381
- Title: Scaling Sentence Embeddings with Large Language Models
- Title(参考訳): 大規模言語モデルによる文埋め込みのスケーリング
- Authors: Ting Jiang, Shaohan Huang, Zhongzhi Luan, Deqing Wang, Fuzhen Zhuang
- Abstract要約: 本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
- 参考スコア(独自算出の注目度): 43.19994568210206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently garnered significant interest.
With in-context learning, LLMs achieve impressive results in various natural
language tasks. However, the application of LLMs to sentence embeddings remains
an area of ongoing research. In this work, we propose an in-context
learning-based method aimed at improving sentence embeddings performance. Our
approach involves adapting the previous prompt-based representation method for
autoregressive models, constructing a demonstration set that enables LLMs to
perform in-context learning, and scaling up the LLMs to different model sizes.
Through extensive experiments, in-context learning enables LLMs to generate
high-quality sentence embeddings without any fine-tuning. It helps LLMs achieve
performance comparable to current contrastive learning methods. By scaling
model size, we find scaling to more than tens of billion parameters harms the
performance on semantic textual similarity (STS) tasks. However, the largest
model outperforms other counterparts and achieves the new state-of-the-art
result on transfer tasks. We also fine-tune LLMs with current contrastive
learning approach, and the 2.7B OPT model, incorporating our prompt-based
method, surpasses the performance of 4.8B ST5, achieving the new
state-of-the-art results on STS tasks. Our code is available at
https://github.com/kongds/scaling_sentemb.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近大きな関心を集めている。
文脈内学習により、llmは様々な自然言語タスクで印象的な結果を得る。
しかし、LLMの文埋め込みへの応用は現在も進行中の研究分野である。
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,先行するプロンプトベース表現法を自己回帰モデルに適用し,llmがコンテキスト内学習を可能にするデモセットを構築し,llmを異なるモデルサイズにスケールアップする。
幅広い実験を通じて、インコンテキスト学習により、llmは微調整なしで高品質な文埋め込みを生成することができる。
LLMは、現在のコントラスト学習手法に匹敵するパフォーマンスを達成するのに役立つ。
モデルサイズをスケールすることで、1000億以上のパラメータへのスケーリングは、セマンティックテキスト類似性(STS)タスクのパフォーマンスに影響を与えます。
しかし、最大のモデルは他のモデルよりも優れ、転送タスクにおける新しい最先端の結果を達成する。
我々はまた,現在のコントラスト学習手法とllmを微調整し,プロンプトベース手法を組み込んだ2.7bオプターモデルは4.8b st5の性能を上回り,stsタスクにおける最新の結果を得た。
私たちのコードはhttps://github.com/kongds/scaling_sentembで利用可能です。
関連論文リスト
- Stacking Small Language Models for Generalizability [0.0]
大規模言語モデル(LLM)は、異なる自然言語ベンチマークで強いパフォーマンスを一般化する。
本稿では,言語モデルの微調整スタック (FSLM) と呼ばれる新しいアプローチを提案する。
特定のタスクを実行するために各SLMを微調整することにより、このアプローチは、特定のSLMが責任を負う複数の低レベルステップに高レベル推論を分解する。
その結果、FSLMはトレーニングと推論のコストを低減し、各SLMが後続のSLMと自然言語を介して通信するので、モデルの解釈性を向上させることができる。
論文 参考訳(メタデータ) (2024-10-21T01:27:29Z) - Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。
実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文 参考訳(メタデータ) (2024-09-22T14:35:09Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - SLMRec: Empowering Small Language Models for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。
最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。
LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文 参考訳(メタデータ) (2024-05-28T07:12:06Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。