論文の概要: DeeLM: Dependency-enhanced Large Language Model for Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2311.05296v1
- Date: Thu, 9 Nov 2023 11:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:28:18.224691
- Title: DeeLM: Dependency-enhanced Large Language Model for Sentence Embeddings
- Title(参考訳): deelm: 文埋め込みのための依存性拡張型大規模言語モデル
- Authors: Xianming Li, Jing Li
- Abstract要約: 大規模言語モデル(LLM)における下位依存の限られた学習を示す証拠を示す。
そこで我々は,文の埋め込みを改善するために,依存性拡張大言語モデル (DeeLM) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.369734771028112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have proposed using large language models (LLMs) for sentence
embeddings. However, most existing LLMs are built with an autoregressive
architecture that primarily captures forward dependencies while neglecting
backward dependencies. Previous work has highlighted the importance of backward
dependencies in improving sentence embeddings. To address this issue, in this
paper, we first present quantitative evidence demonstrating the limited
learning of backward dependencies in LLMs. Then, we propose a novel approach
called Dependency-Enhanced Large Language Model (DeeLM) to improve sentence
embeddings. Specifically, we found a turning point in LLMs, where surpassing
specific LLM layers leads to a significant performance drop in the semantic
textual similarity (STS) task. STS is a crucial task for evaluating sentence
embeddings. We then extract the layers after the turning point to make them
bidirectional, allowing for the learning of backward dependencies. Extensive
experiments demonstrate that DeeLM outperforms baselines and achieves
state-of-the-art performance across various STS tasks.
- Abstract(参考訳): 近年,文埋め込みのための言語モデル (LLM) が提案されている。
しかし、既存のLLMのほとんどは自動回帰アーキテクチャで構築されており、主に後方依存を無視しながら前方依存をキャプチャする。
これまでの研究は、文の埋め込みを改善するための後方依存の重要性を強調してきた。
本稿では, LLMにおける後方依存の学習に制限があることを示す定量的な証拠をまず提示する。
そこで本研究では,文の埋め込みを改善するために,依存性拡張大言語モデル(DeeLM)を提案する。
特に LLM では,特定の LLM 層を超えると意味的テキスト類似性 (STS) が著しく低下する。
STSは文の埋め込みを評価するための重要なタスクです。
その後、ターンポイントの後にレイヤを抽出して双方向にすることで、下位依存関係の学習を可能にします。
大規模な実験では、DeeLMがベースラインを上回り、さまざまなSTSタスクで最先端のパフォーマンスを実現している。
関連論文リスト
- Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Word Embeddings Revisited: Do LLMs Offer Something New? [2.822851601000061]
意味のある単語の埋め込みを学ぶことは、堅牢な言語モデルをトレーニングする上で鍵となる。
最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。
論文 参考訳(メタデータ) (2024-02-16T21:47:30Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。
以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。
本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文 参考訳(メタデータ) (2023-12-05T12:48:04Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。