論文の概要: Is Your Language Model Ready for Dense Representation Fine-tuning?
- arxiv url: http://arxiv.org/abs/2104.08253v1
- Date: Fri, 16 Apr 2021 17:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:16:52.334334
- Title: Is Your Language Model Ready for Dense Representation Fine-tuning?
- Title(参考訳): あなたの言語モデルは、Dense Representation Fine-tuningの準備が整っているか?
- Authors: Luyu Gao, Jamie Callan
- Abstract要約: 本論文は, 微調整における高密度表現による知識の公開は, LMの即応性に起因していることを示す。
本稿では,変圧器lmsに基づく一般的な事前学習アーキテクチャであるコンデンサを提案する。
- 参考スコア(独自算出の注目度): 15.238322226336232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LM) have become go-to text representation
encoders. Prior research used deep LMs to encode text sequences such as
sentences and passages into single dense vector representations. These dense
representations have been used in efficient text comparison and embedding-based
retrieval. However, dense encoders suffer in low resource situations. Many
techniques have been developed to solve this problem. Despite their success,
not much is known about why this happens. This paper shows that one cause lies
in the readiness of the LM to expose its knowledge through dense representation
in fine-tuning, which we term Optimization Readiness. To validate the theory,
we present Condenser, a general pre-training architecture based on Transformer
LMs, to improve dense optimization readiness. We show that fine-tuning from
Condenser significantly improves performance for small and/or noisy training
sets.
- Abstract(参考訳): 事前訓練された言語モデル (LM) はテキスト表現エンコーダとなった。
以前の研究では、ディープlmsを使用して、文や節などのテキストシーケンスを単一の高密度ベクトル表現にエンコードした。
これらの密表現は、効率的なテキスト比較と埋め込みベースの検索に使われている。
しかし、密度の高いエンコーダは低い資源環境に苦しむ。
この問題を解決するために多くの技術が開発されている。
彼らの成功にもかかわらず、なぜそうなるのかはあまり分かっていない。
本論文は, 最適化準備性(Optimization Readiness) という, 微調整における高密度表現による知識の公開が, LMの即応性に起因していることを示す。
この理論を検証するために,Transformer LMをベースとした一般的な事前学習アーキテクチャであるCondenserを提案する。
コンデンサの微調整により,小型および騒音トレーニングセットの性能が大幅に向上することを示す。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Extracting Text Representations for Terms and Phrases in Technical
Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。
このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文 参考訳(メタデータ) (2023-05-25T08:59:36Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - KNN-LM Does Not Improve Open-ended Text Generation [34.86733697757264]
検索強化言語モデル(LM)の生成品質について検討する。
検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。
検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
論文 参考訳(メタデータ) (2023-05-24T01:48:33Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Contrastive Decoding: Open-ended Text Generation as Optimization [153.35961722855686]
信頼性の高い復号法であるコントラスト復号法(CD)を提案する。
これは、より大きなLMの故障がより小さなLMでさらに多いという事実に着想を得たものである。
CDは追加のトレーニングを一切必要とせず、より大きなLMからの復号化よりも高品質なテキストを生成する。
論文 参考訳(メタデータ) (2022-10-27T00:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。