論文の概要: Repetition Improves Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2402.15449v2
- Date: Sun, 07 Sep 2025 18:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.626414
- Title: Repetition Improves Language Model Embeddings
- Title(参考訳): 繰り返しは言語モデルの埋め込みを改善する
- Authors: Jacob Mitchell Springer, Suhas Kotha, Daniel Fried, Graham Neubig, Aditi Raghunathan,
- Abstract要約: 「echo Embeddings」は、自動回帰言語モデルをアーキテクチャの変更や微調整を必要とせず、強力なテキスト埋め込みモデルに変換する。
我々のゼロショット埋め込みは、マスク付き言語モデリングトレーニングを施した双方向変換LMで得られたものとほぼ一致します。
- 参考スコア(独自算出の注目度): 86.71985212601258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bidirectional models are considered essential for strong text embeddings. Recent approaches to adapt autoregressive language models (LMs) into strong text embedding models have largely had the requirement to modify the LM architecture to be bidirectional. We challenge this premise by introducing "echo embeddings" which converts autoregressive LMs into high quality text embedding models without changing the architecture or requiring fine-tuning. By repeating the input and extracting embeddings from the repeated tokens -- which have access to all original tokens -- echo embeddings improve over classical LM embeddings by over 5% in zero-shot settings. Our zero-shot embeddings nearly match those obtained by bidirectionally-converted LMs that undergo additional masked-language modeling training. Echo embeddings are also compatible with supervised fine-tuning, matching or outperforming bidirectionally-converted LMs in an apples-to-apples comparison, even with an identical compute budget during training and inference. Overall, repetition is a simple and effective strategy to circumvent the need for bidirectional attention in embedding models, paving the way towards a unified architecture for all NLP tasks.
- Abstract(参考訳): 双方向モデルは強力なテキスト埋め込みに不可欠であると考えられている。
自己回帰型言語モデル(LM)を強力なテキスト埋め込みモデルに適応する最近のアプローチは、LMアーキテクチャを双方向に修正する必要がほとんどである。
アーキテクチャの変更や微調整を必要とせず,自己回帰型LMを高品質なテキスト埋め込みモデルに変換する"echo Embeddings"を導入することで,この前提に挑戦する。
すべてのオリジナルのトークンにアクセス可能な繰り返しトークンからの入力と埋め込みを繰り返すことで、エコー埋め込みは、ゼロショット設定で従来のLM埋め込みよりも5%以上改善される。
私たちのゼロショット埋め込みは、マスク付き言語モデリングトレーニングを施した双方向変換LMで得られたものとほぼ一致します。
エコー埋め込みは、トレーニングや推論において、同じ計算予算であっても、リンゴとアプリケーションの比較において、監督された微調整、マッチング、あるいは双方向変換されたLMのパフォーマンスに互換性がある。
全体として、反復は、モデル埋め込みにおける双方向の注意を回避し、すべてのNLPタスクのための統一アーキテクチャへの道を開くための、シンプルで効果的な戦略である。
関連論文リスト
- Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [3.8688081072587326]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。
まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。
最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文 参考訳(メタデータ) (2025-07-31T10:01:11Z) - Modular Prompt Learning Improves Vision-Language Models [49.132774679968456]
挿入されたプロンプトに含まれる情報の保存を促進するために,モジュール型プロンプト学習(MPL)を提案する。
提案手法は,ベース・ツー・ニューな一般化タスクにおいて平均0.7%の性能向上を実現している。
個々のデータセットにおける最大の改善は10.7%である。
論文 参考訳(メタデータ) (2025-02-19T22:00:20Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting [0.0]
本稿では,大規模な言語モデル(LLM)を活用して埋め込み処理前に入力テキストを豊かに書き直しすることで,埋め込み性能を向上させる新しい手法を提案する。
このアプローチの有効性は、Banking77 Classification、TwitterSemEval 2015、Amazon Counter-factual Classificationの3つのデータセットで評価されている。
論文 参考訳(メタデータ) (2024-04-18T15:58:56Z) - Generative Representational Instruction Tuning [89.76840377003178]
GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する
GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-15T12:12:19Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。
本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-07-08T04:05:04Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - ReGen: Zero-Shot Text Classification via Training Data Generation with
Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。
9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文 参考訳(メタデータ) (2023-05-18T04:30:09Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models
Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。
我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。
本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:11:07Z) - AMR Parsing via Graph-Sequence Iterative Inference [62.85003739964878]
本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。
これら2つの質問に対する回答は相互因果関係であることを示す。
我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。
論文 参考訳(メタデータ) (2020-04-12T09:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。