論文の概要: DeeLM: Dependency-enhanced Large Language Model for Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2311.05296v1
- Date: Thu, 9 Nov 2023 11:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:28:18.224691
- Title: DeeLM: Dependency-enhanced Large Language Model for Sentence Embeddings
- Title(参考訳): deelm: 文埋め込みのための依存性拡張型大規模言語モデル
- Authors: Xianming Li, Jing Li
- Abstract要約: 大規模言語モデル(LLM)における下位依存の限られた学習を示す証拠を示す。
そこで我々は,文の埋め込みを改善するために,依存性拡張大言語モデル (DeeLM) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.369734771028112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have proposed using large language models (LLMs) for sentence
embeddings. However, most existing LLMs are built with an autoregressive
architecture that primarily captures forward dependencies while neglecting
backward dependencies. Previous work has highlighted the importance of backward
dependencies in improving sentence embeddings. To address this issue, in this
paper, we first present quantitative evidence demonstrating the limited
learning of backward dependencies in LLMs. Then, we propose a novel approach
called Dependency-Enhanced Large Language Model (DeeLM) to improve sentence
embeddings. Specifically, we found a turning point in LLMs, where surpassing
specific LLM layers leads to a significant performance drop in the semantic
textual similarity (STS) task. STS is a crucial task for evaluating sentence
embeddings. We then extract the layers after the turning point to make them
bidirectional, allowing for the learning of backward dependencies. Extensive
experiments demonstrate that DeeLM outperforms baselines and achieves
state-of-the-art performance across various STS tasks.
- Abstract(参考訳): 近年,文埋め込みのための言語モデル (LLM) が提案されている。
しかし、既存のLLMのほとんどは自動回帰アーキテクチャで構築されており、主に後方依存を無視しながら前方依存をキャプチャする。
これまでの研究は、文の埋め込みを改善するための後方依存の重要性を強調してきた。
本稿では, LLMにおける後方依存の学習に制限があることを示す定量的な証拠をまず提示する。
そこで本研究では,文の埋め込みを改善するために,依存性拡張大言語モデル(DeeLM)を提案する。
特に LLM では,特定の LLM 層を超えると意味的テキスト類似性 (STS) が著しく低下する。
STSは文の埋め込みを評価するための重要なタスクです。
その後、ターンポイントの後にレイヤを抽出して双方向にすることで、下位依存関係の学習を可能にします。
大規模な実験では、DeeLMがベースラインを上回り、さまざまなSTSタスクで最先端のパフォーマンスを実現している。
関連論文リスト
- Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free [21.59456761618456]
大規模言語モデル(LLM)は生成タスクに優れ、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。
我々の研究は、MoE LLMのエキスパートルータが、様々な組込みタスクに対して有望な性能を持つ既製の組込みモデルとして機能できることを示唆している。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。
実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文 参考訳(メタデータ) (2024-09-22T14:35:09Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Word Embeddings Revisited: Do LLMs Offer Something New? [2.822851601000061]
意味のある単語の埋め込みを学ぶことは、堅牢な言語モデルをトレーニングする上で鍵となる。
最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。
論文 参考訳(メタデータ) (2024-02-16T21:47:30Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。
以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。
本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文 参考訳(メタデータ) (2023-12-05T12:48:04Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。