論文の概要: One Embedder, Any Task: Instruction-Finetuned Text Embeddings
- arxiv url: http://arxiv.org/abs/2212.09741v3
- Date: Tue, 30 May 2023 15:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:08:16.351851
- Title: One Embedder, Any Task: Instruction-Finetuned Text Embeddings
- Title(参考訳): One Embedder, Any Task: Instruction-Finetuned Text Embedddings
- Authors: Hongjin Su, Weijia Shi, Jungo Kasai, Yizhong Wang, Yushi Hu, Mari
Ostendorf, Wen-tau Yih, Noah A. Smith, Luke Zettlemoyer, Tao Yu
- Abstract要約: INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。
すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。
InSTRUCTORを70の埋め込み評価タスクで評価する。
- 参考スコア(独自算出の注目度): 105.82772523968961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce INSTRUCTOR, a new method for computing text embeddings given
task instructions: every text input is embedded together with instructions
explaining the use case (e.g., task and domain descriptions). Unlike encoders
from prior work that are more specialized, INSTRUCTOR is a single embedder that
can generate text embeddings tailored to different downstream tasks and
domains, without any further training. We first annotate instructions for 330
diverse tasks and train INSTRUCTOR on this multitask mixture with a contrastive
loss. We evaluate INSTRUCTOR on 70 embedding evaluation tasks (66 of which are
unseen during training), ranging from classification and information retrieval
to semantic textual similarity and text generation evaluation. INSTRUCTOR,
while having an order of magnitude fewer parameters than the previous best
model, achieves state-of-the-art performance, with an average improvement of
3.4% compared to the previous best results on the 70 diverse datasets. Our
analysis suggests that INSTRUCTOR is robust to changes in instructions, and
that instruction finetuning mitigates the challenge of training a single model
on diverse datasets. Our model, code, and data are available at
https://instructor-embedding.github.io.
- Abstract(参考訳): InSTRUCTORは、与えられたタスク命令にテキストを埋め込む新しい方法であり、すべてのテキスト入力がユースケースを説明する命令(タスクやドメイン記述など)と共に埋め込まれている。
より専門的な以前の作業のエンコーダとは異なり、INSTRUCTORは別の下流タスクやドメインに適したテキスト埋め込みを生成することができる単一の埋め込み器である。
まず330の多様なタスクの指示に注釈を付け、このマルチタスクのミックスでINSTRUCTORを訓練する。
InSTRUCTORを70の組込み評価タスク(うち66は訓練中に見つからない)で評価し、分類や情報検索から意味的テキスト類似性やテキスト生成評価までの範囲で評価する。
INSTRUCTORは、以前のベストモデルよりも桁違いに少ないパラメータを持つが、70の多様なデータセットの前のベストモデルと比べて平均3.4%改善され、最先端のパフォーマンスを達成する。
分析の結果,INSTRUCTORは命令の変化に対して頑健であり,命令の微調整は多様なデータセット上で単一モデルをトレーニングする難しさを軽減していることがわかった。
私たちのモデル、コード、データはhttps://instructor-embedding.github.ioで利用可能です。
関連論文リスト
- Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Efficient Pre-training for Localized Instruction Generation of Videos [32.13509517228516]
手続きビデオはステップバイステップの指示を伝えるのに役立ちます。
Process Transformer (ProcX) は、プロシージャビデオのエンドツーエンドのステップローカライズと命令生成のためのモデルである。
論文 参考訳(メタデータ) (2023-11-27T16:07:37Z) - MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning [24.741736629886564]
インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。
MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。
各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
論文 参考訳(メタデータ) (2022-12-21T05:17:06Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Constructing Flow Graphs from Procedural Cybersecurity Texts [16.09313316086535]
我々はサイバーセキュリティドメイン(3154文書)に大規模な注釈付き手続き型テキストデータセット(CTFW)を構築した。
本稿では,このようなテキストから関連情報を識別し,文間の情報フローを生成することを提案する。
実験の結果,BERT文を埋め込んだグラフ畳み込みネットワークは,3つの領域すべてでBERTよりも優れていた。
論文 参考訳(メタデータ) (2021-05-29T19:06:35Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。