論文の概要: BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2311.05296v2
- Date: Thu, 14 Mar 2024 08:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:12:48.829486
- Title: BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings
- Title(参考訳): BeLLM: 文の埋め込みのための後方依存の強化された大規模言語モデル
- Authors: Xianming Li, Jing Li,
- Abstract要約: 後方依存性強化大言語モデル(BeLLM)を提案する。
特定の注意層を一方向から双方向に変換することで文の埋め込みを学習する。
自動回帰 LLM は文埋め込みの後方依存性の恩恵を受ける。
- 参考スコア(独自算出の注目度): 4.545354973721937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence embeddings are crucial in measuring semantic similarity. Most recent studies employed large language models (LLMs) to learn sentence embeddings. Existing LLMs mainly adopted autoregressive architecture without explicit backward dependency modeling. Therefore, we examined the effects of backward dependencies in LLMs for semantic similarity measurements. Concretely, we propose a novel model: backward dependency enhanced large language model (BeLLM). It learns sentence embeddings via transforming specific attention layers from uni- to bi-directional. We extensively experiment across various semantic textual similarity (STS) tasks and downstream applications. BeLLM achieves state-of-the-art performance in varying scenarios. It shows that auto-regressive LLMs benefit from backward dependencies for sentence embeddings.
- Abstract(参考訳): 文の埋め込みは意味的類似性を測定するのに不可欠である。
最近の研究では、大きな言語モデル(LLM)を用いて文の埋め込みを学習している。
既存のLLMは主に、明示的な後方依存性モデリングを伴わない自己回帰型アーキテクチャを採用している。
そこで本研究では,LLMの後方依存性が意味的類似度測定に与える影響について検討した。
具体的には,後方依存性を拡張した大規模言語モデル(BeLLM)を提案する。
特定の注意層を一方向から双方向に変換することで文の埋め込みを学習する。
様々な意味的テキスト類似性(STS)タスクや下流アプリケーションに対して広範囲に実験を行った。
BeLLMは様々なシナリオで最先端のパフォーマンスを達成する。
自動回帰 LLM は文埋め込みの後方依存性の恩恵を受ける。
関連論文リスト
- Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models [79.5116305401044]
セルフフィードバックは、特定のタスクにおいて大きな言語モデル(LLM)を改善し、他のタスクを悪化させる。
近年の研究では、自己フィードバックは特定のタスクにおいて大きな言語モデル(LLM)を改善する一方で、他のタスクを悪化させることが示されている。
本稿は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Word Embeddings Revisited: Do LLMs Offer Something New? [2.822851601000061]
意味のある単語の埋め込みを学ぶことは、堅牢な言語モデルをトレーニングする上で鍵となる。
最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。
論文 参考訳(メタデータ) (2024-02-16T21:47:30Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。
以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。
本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文 参考訳(メタデータ) (2023-12-05T12:48:04Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。