論文の概要: Repetition Improves Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2402.15449v1
- Date: Fri, 23 Feb 2024 17:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:52:26.812598
- Title: Repetition Improves Language Model Embeddings
- Title(参考訳): 繰り返しが言語モデルの埋め込みを改善する
- Authors: Jacob Mitchell Springer, Suhas Kotha, Daniel Fried, Graham Neubig,
Aditi Raghunathan
- Abstract要約: 本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。
MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
- 参考スコア(独自算出の注目度): 68.92976440181387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches to improving the extraction of text embeddings from
autoregressive large language models (LLMs) have largely focused on
improvements to data, backbone pretrained language models, or improving
task-differentiation via instructions. In this work, we address an
architectural limitation of autoregressive models: token embeddings cannot
contain information from tokens that appear later in the input. To address this
limitation, we propose a simple approach, "echo embeddings," in which we repeat
the input twice in context and extract embeddings from the second occurrence.
We show that echo embeddings of early tokens can encode information about later
tokens, allowing us to maximally leverage high-quality LLMs for embeddings. On
the MTEB leaderboard, echo embeddings improve over classical embeddings by over
9% zero-shot and by around 0.7% when fine-tuned. Echo embeddings with a
Mistral-7B model achieve state-of-the-art compared to prior open source models
that do not leverage synthetic fine-tuning data.
- Abstract(参考訳): 自己回帰型大規模言語モデル(LLM)からテキスト埋め込みを抽出するための最近のアプローチは、主にデータの改善、バックボーン事前学習言語モデルの改善、命令によるタスク差分の改善に焦点を当てている。
本稿では,自己回帰モデルにおけるアーキテクチャ上の制限に対処する。トークン埋め込みは,後から入力に現れるトークンからの情報を含むことができない。
この制限に対処するために、我々は「エコー埋め込み」という単純なアプローチを提案し、入力を文脈で2回繰り返し、埋め込みを第2の発生から抽出する。
初期トークンのエコー埋め込みは、後続トークンに関する情報を符号化することができ、埋め込みに高品質のLCMを最大限活用できることを示す。
MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
Mistral-7Bモデルによるエコー埋め込みは、合成微調整データを使用しない以前のオープンソースモデルと比較して最先端を実現している。
関連論文リスト
- Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting [0.0]
本稿では,大規模な言語モデル(LLM)を活用して埋め込み処理前に入力テキストを豊かに書き直しすることで,埋め込み性能を向上させる新しい手法を提案する。
このアプローチの有効性は、Banking77 Classification、TwitterSemEval 2015、Amazon Counter-factual Classificationの3つのデータセットで評価されている。
論文 参考訳(メタデータ) (2024-04-18T15:58:56Z) - Generative Representational Instruction Tuning [89.76840377003178]
GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する
GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-15T12:12:19Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。
本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-07-08T04:05:04Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - ReGen: Zero-Shot Text Classification via Training Data Generation with
Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。
9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文 参考訳(メタデータ) (2023-05-18T04:30:09Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models
Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。
我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。
本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:11:07Z) - AMR Parsing via Graph-Sequence Iterative Inference [62.85003739964878]
本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。
これら2つの質問に対する回答は相互因果関係であることを示す。
我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。
論文 参考訳(メタデータ) (2020-04-12T09:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。