論文の概要: Is Your Language Model Ready for Dense Representation Fine-tuning?
- arxiv url: http://arxiv.org/abs/2104.08253v1
- Date: Fri, 16 Apr 2021 17:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:16:52.334334
- Title: Is Your Language Model Ready for Dense Representation Fine-tuning?
- Title(参考訳): あなたの言語モデルは、Dense Representation Fine-tuningの準備が整っているか?
- Authors: Luyu Gao, Jamie Callan
- Abstract要約: 本論文は, 微調整における高密度表現による知識の公開は, LMの即応性に起因していることを示す。
本稿では,変圧器lmsに基づく一般的な事前学習アーキテクチャであるコンデンサを提案する。
- 参考スコア(独自算出の注目度): 15.238322226336232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LM) have become go-to text representation
encoders. Prior research used deep LMs to encode text sequences such as
sentences and passages into single dense vector representations. These dense
representations have been used in efficient text comparison and embedding-based
retrieval. However, dense encoders suffer in low resource situations. Many
techniques have been developed to solve this problem. Despite their success,
not much is known about why this happens. This paper shows that one cause lies
in the readiness of the LM to expose its knowledge through dense representation
in fine-tuning, which we term Optimization Readiness. To validate the theory,
we present Condenser, a general pre-training architecture based on Transformer
LMs, to improve dense optimization readiness. We show that fine-tuning from
Condenser significantly improves performance for small and/or noisy training
sets.
- Abstract(参考訳): 事前訓練された言語モデル (LM) はテキスト表現エンコーダとなった。
以前の研究では、ディープlmsを使用して、文や節などのテキストシーケンスを単一の高密度ベクトル表現にエンコードした。
これらの密表現は、効率的なテキスト比較と埋め込みベースの検索に使われている。
しかし、密度の高いエンコーダは低い資源環境に苦しむ。
この問題を解決するために多くの技術が開発されている。
彼らの成功にもかかわらず、なぜそうなるのかはあまり分かっていない。
本論文は, 最適化準備性(Optimization Readiness) という, 微調整における高密度表現による知識の公開が, LMの即応性に起因していることを示す。
この理論を検証するために,Transformer LMをベースとした一般的な事前学習アーキテクチャであるCondenserを提案する。
コンデンサの微調整により,小型および騒音トレーニングセットの性能が大幅に向上することを示す。
関連論文リスト
- Language Models as Hierarchy Encoders [24.071698413762388]
階層変換器エンコーダ (HiTs) として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
我々は,Hitsを事前学習および微調整のLMに対して評価し,過渡的推論のシミュレーション,仮定の予測,階層間の知識の伝達に焦点をあてた。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Extracting Text Representations for Terms and Phrases in Technical
Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。
このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文 参考訳(メタデータ) (2023-05-25T08:59:36Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - KNN-LM Does Not Improve Open-ended Text Generation [34.86733697757264]
検索強化言語モデル(LM)の生成品質について検討する。
検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。
検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
論文 参考訳(メタデータ) (2023-05-24T01:48:33Z) - Toward Adversarial Training on Contextualized Language Representation [78.39805974043321]
本稿では, PLMエンコーダが出力する文脈化言語表現の観点から, 対人訓練(AT)について検討する。
そこで我々は, テキストコンテキスト適応型表現-逆訓練(CreAT)を提案し, 攻撃を明示的に最適化し, エンコーダの文脈化表現を逸脱させる。
CreATは幅広いタスクで一貫したパフォーマンス向上を実現しており、エンコーダ部分のみを下流タスクに保持する言語事前トレーニングに有効であることが証明されている。
論文 参考訳(メタデータ) (2023-05-08T08:56:51Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Contrastive Decoding: Open-ended Text Generation as Optimization [153.35961722855686]
信頼性の高い復号法であるコントラスト復号法(CD)を提案する。
これは、より大きなLMの故障がより小さなLMでさらに多いという事実に着想を得たものである。
CDは追加のトレーニングを一切必要とせず、より大きなLMからの復号化よりも高品質なテキストを生成する。
論文 参考訳(メタデータ) (2022-10-27T00:58:21Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。