Fugu-MT 論文翻訳(概要): Repetition Improves Language Model Embeddings

論文の概要: Repetition Improves Language Model Embeddings

arxiv url: http://arxiv.org/abs/2402.15449v1
Date: Fri, 23 Feb 2024 17:25:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 13:52:26.812598
Title: Repetition Improves Language Model Embeddings
Title（参考訳）: 繰り返しが言語モデルの埋め込みを改善する
Authors: Jacob Mitchell Springer, Suhas Kotha, Daniel Fried, Graham Neubig, Aditi Raghunathan
Abstract要約: 本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。 MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
参考スコア（独自算出の注目度）: 68.92976440181387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent approaches to improving the extraction of text embeddings from autoregressive large language models (LLMs) have largely focused on improvements to data, backbone pretrained language models, or improving task-differentiation via instructions. In this work, we address an architectural limitation of autoregressive models: token embeddings cannot contain information from tokens that appear later in the input. To address this limitation, we propose a simple approach, "echo embeddings," in which we repeat the input twice in context and extract embeddings from the second occurrence. We show that echo embeddings of early tokens can encode information about later tokens, allowing us to maximally leverage high-quality LLMs for embeddings. On the MTEB leaderboard, echo embeddings improve over classical embeddings by over 9% zero-shot and by around 0.7% when fine-tuned. Echo embeddings with a Mistral-7B model achieve state-of-the-art compared to prior open source models that do not leverage synthetic fine-tuning data.
Abstract（参考訳）: 自己回帰型大規模言語モデル(LLM)からテキスト埋め込みを抽出するための最近のアプローチは、主にデータの改善、バックボーン事前学習言語モデルの改善、命令によるタスク差分の改善に焦点を当てている。本稿では,自己回帰モデルにおけるアーキテクチャ上の制限に対処する。トークン埋め込みは,後から入力に現れるトークンからの情報を含むことができない。この制限に対処するために、我々は「エコー埋め込み」という単純なアプローチを提案し、入力を文脈で2回繰り返し、埋め込みを第2の発生から抽出する。初期トークンのエコー埋め込みは、後続トークンに関する情報を符号化することができ、埋め込みに高品質のLCMを最大限活用できることを示す。 MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。 Mistral-7Bモデルによるエコー埋め込みは、合成微調整データを使用しない以前のオープンソースモデルと比較して最先端を実現している。

関連論文リスト

Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [3.8688081072587326]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文参考訳（メタデータ） (2025-07-31T10:01:11Z)
Modular Prompt Learning Improves Vision-Language Models [49.132774679968456]
挿入されたプロンプトに含まれる情報の保存を促進するために,モジュール型プロンプト学習(MPL)を提案する。提案手法は,ベース・ツー・ニューな一般化タスクにおいて平均0.7%の性能向上を実現している。個々のデータセットにおける最大の改善は10.7%である。
論文参考訳（メタデータ） (2025-02-19T22:00:20Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting [0.0]
本稿では,大規模な言語モデル(LLM)を活用して埋め込み処理前に入力テキストを豊かに書き直しすることで,埋め込み性能を向上させる新しい手法を提案する。このアプローチの有効性は、Banking77 Classification、TwitterSemEval 2015、Amazon Counter-factual Classificationの3つのデータセットで評価されている。
論文参考訳（メタデータ） (2024-04-18T15:58:56Z)
Generative Representational Instruction Tuning [89.76840377003178]
GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
論文参考訳（メタデータ） (2024-02-15T12:12:19Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文参考訳（メタデータ） (2023-07-08T04:05:04Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文参考訳（メタデータ） (2023-05-23T07:54:34Z)
ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。 9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文参考訳（メタデータ） (2023-05-18T04:30:09Z)
DoubleMix: Simple Interpolation-Based Data Augmentation for Text Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。 DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文参考訳（メタデータ） (2022-09-12T15:01:04Z)
Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文参考訳（メタデータ） (2022-03-15T13:11:07Z)
AMR Parsing via Graph-Sequence Iterative Inference [62.85003739964878]
本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。これら2つの質問に対する回答は相互因果関係であることを示す。我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。
論文参考訳（メタデータ） (2020-04-12T09:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。