論文の概要: Discovering Useful Sentence Representations from Large Pretrained
Language Models
- arxiv url: http://arxiv.org/abs/2008.09049v1
- Date: Thu, 20 Aug 2020 16:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 02:57:41.070961
- Title: Discovering Useful Sentence Representations from Large Pretrained
Language Models
- Title(参考訳): 大規模事前学習言語モデルから有用な文表現を発見する
- Authors: Nishant Subramani and Nivedita Suresh
- Abstract要約: 本稿では,事前学習した言語モデルをユニバーサルデコーダとして利用できるかどうかを考察する。
大量の英文で学習した大規模トランスフォーマーベース言語モデルに対して,そのような表現が容易に発見できるかどうかを考察する。
本稿では,変換器モデルに対する3つの表現注入手法と,この表現空間から文をマッピングする3つの随伴手法を提案する。
- 参考スコア(独自算出の注目度): 8.212920842986689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the extensive success of pretrained language models as encoders for
building NLP systems, they haven't seen prominence as decoders for sequence
generation tasks. We explore the question of whether these models can be
adapted to be used as universal decoders. To be considered "universal," a
decoder must have an implicit representation for any target sentence $s$, such
that it can recover that sentence exactly when conditioned on its
representation. For large transformer-based language models trained on vast
amounts of English text, we investigate whether such representations can be
easily discovered using standard optimization methods. We present and compare
three representation injection techniques for transformer-based models and
three accompanying methods which map sentences to and from this representation
space. Experiments show that not only do representations exist for sentences
from a variety of genres. More importantly, without needing complex
optimization algorithms, our methods recover these sentences almost perfectly
without fine-tuning the underlying language model at all.
- Abstract(参考訳): NLPシステムを構築するためのエンコーダとして事前訓練された言語モデルが広く成功したにもかかわらず、彼らはシーケンス生成タスクのデコーダとして有名ではない。
これらのモデルがユニバーサルデコーダとして利用できるかどうかについて検討する。
普遍的」と見なすには、デコーダは任意のターゲット文$s$に対して暗黙的な表現を持たなければならない。
大量の英語テキストで学習した大規模トランスフォーマティブ言語モデルについて,標準最適化手法を用いて,その表現が容易に発見できるかどうかを検討する。
本稿では,変換器モデルに対する3つの表現注入手法と,この表現空間から文をマッピングする3つの随伴手法を提案する。
実験によると、表現は様々なジャンルの文に対して存在する。
さらに、複雑な最適化アルゴリズムを必要とせず、基礎となる言語モデルを微調整することなく、これらの文をほぼ完全に復元する。
関連論文リスト
- Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Few-Shot Semantic Parsing with Language Models Trained On Code [52.23355024995237]
Codexは同等のGPT-3モデルよりもセマンティックパーシングが優れていることがわかった。
GPT-3とは異なり、Codexは意味表現を直接ターゲットとする場合、おそらく意味解析で使われる意味表現がコードと似た構造になっているように、同じように機能する。
論文 参考訳(メタデータ) (2021-12-16T08:34:06Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Discrete Cosine Transform as Universal Sentence Encoder [10.355894890759377]
我々は離散コサイン変換(DCT)を用いて、異なる言語に対する普遍的な文表現を生成する。
実験結果からDCT符号化の有効性が明らかとなった。
論文 参考訳(メタデータ) (2021-06-02T04:43:54Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。