論文の概要: Do sequence-to-sequence VAEs learn global features of sentences?
- arxiv url: http://arxiv.org/abs/2004.07683v2
- Date: Sun, 28 Mar 2021 18:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:02:13.034832
- Title: Do sequence-to-sequence VAEs learn global features of sentences?
- Title(参考訳): シーケンシャル・ツー・シーケンスのVAEは、文のグローバルな特徴を学ぶか?
- Authors: Tom Bosc and Pascal Vincent
- Abstract要約: 本研究では,列列列構造を用いた自然言語用可変国語オートエンコーダ(VAE)について検討する。
VAEは最初の単語と文章の長さを記憶する傾向があり、限られた有用性を持つ局所的な特徴を生み出す。
これらの変種はよりグローバルな潜在変数、すなわちトピックや感情ラベルをより予測的に学習する。
- 参考スコア(独自算出の注目度): 13.43800646539014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive language models are powerful and relatively easy to train.
However, these models are usually trained without explicit conditioning labels
and do not offer easy ways to control global aspects such as sentiment or topic
during generation. Bowman & al. (2016) adapted the Variational Autoencoder
(VAE) for natural language with the sequence-to-sequence architecture and
claimed that the latent vector was able to capture such global features in an
unsupervised manner. We question this claim. We measure which words benefit
most from the latent information by decomposing the reconstruction loss per
position in the sentence. Using this method, we find that VAEs are prone to
memorizing the first words and the sentence length, producing local features of
limited usefulness. To alleviate this, we investigate alternative architectures
based on bag-of-words assumptions and language model pretraining. These
variants learn latent variables that are more global, i.e., more predictive of
topic or sentiment labels. Moreover, using reconstructions, we observe that
they decrease memorization: the first word and the sentence length are not
recovered as accurately than with the baselines, consequently yielding more
diverse reconstructions.
- Abstract(参考訳): 自動回帰言語モデルは強力で、訓練が比較的容易です。
しかしながら、これらのモデルは通常、明示的な条件付けのラベルなしで訓練されており、世代間の感情やトピックといったグローバルな側面を制御する簡単な方法を提供していない。
Bowman & al. (2016) は、変分オートエンコーダ (VAE) をシーケンス・ツー・シーケンスアーキテクチャで自然言語に適応させ、潜在ベクトルはそのようなグローバルな特徴を教師なしで捉えることができると主張した。
我々はこの主張に疑問を呈する。
文中の位置ごとの再構成損失を分解することにより、潜在情報から最も有益な単語を計測する。
この方法を用いることで,vaesは最初の単語と文長を記憶し易く,有用性に乏しい局所的特徴を生じやすいことがわかった。
そこで本研究では,単語の先入観と言語モデルの事前学習に基づく代替アーキテクチャについて検討する。
これらの変種はよりグローバルな潜在変数、すなわちトピックや感情ラベルをより予測的に学習する。
また,第1の単語と文の長さは,ベースラインほど正確には復元されないため,より多様な復元結果が得られるため,記憶力の低下が観察された。
関連論文リスト
- Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - ResMem: Learn what you can and memorize the rest [79.19649788662511]
本稿では,既存の予測モデルを拡張するための残差記憶アルゴリズム(ResMem)を提案する。
構築によって、ResMemはトレーニングラベルを明示的に記憶することができる。
ResMemは、元の予測モデルのテストセットの一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2023-02-03T07:12:55Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - How BPE Affects Memorization in Transformers [36.53583838619203]
Byte-Pair QA (BPE) で学習した単語語彙のサイズは、トレーニングデータを記憶するための標準トランスフォーマーモデルの能力と傾向に大きな影響を与えることを示す。
我々は、この効果は、BPE語彙が大きくなるにつれて起こるシーケンスの長さの減少によって生じると推測する。
論文 参考訳(メタデータ) (2021-10-06T14:01:56Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。