論文の概要: SentenceMIM: A Latent Variable Language Model
- arxiv url: http://arxiv.org/abs/2003.02645v5
- Date: Wed, 21 Apr 2021 20:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 18:58:44.693030
- Title: SentenceMIM: A Latent Variable Language Model
- Title(参考訳): SentenceMIM: 潜在変数言語モデル
- Authors: Micha Livne, Kevin Swersky, David J. Fleet
- Abstract要約: SentenceMIMは言語データのための確率論的オートエンコーダである。
ミューチュアル・インフォメーション・マシン(MIM)を用いて学習し、可変長言語観測の固定長表現を提供する。
本研究では,質問応答学習と伝達学習のための学習モデルを用いて文MIMの汎用性を実証する。
- 参考スコア(独自算出の注目度): 19.39122632876056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SentenceMIM is a probabilistic auto-encoder for language data, trained with
Mutual Information Machine (MIM) learning to provide a fixed length
representation of variable length language observations (i.e., similar to VAE).
Previous attempts to learn VAEs for language data faced challenges due to
posterior collapse. MIM learning encourages high mutual information between
observations and latent variables, and is robust against posterior collapse. As
such, it learns informative representations whose dimension can be an order of
magnitude higher than existing language VAEs. Importantly, the SentenceMIM loss
has no hyper-parameters, simplifying optimization. We compare sentenceMIM with
VAE, and AE on multiple datasets. SentenceMIM yields excellent reconstruction,
comparable to AEs, with a rich structured latent space, comparable to VAEs. The
structured latent representation is demonstrated with interpolation between
sentences of different lengths. We demonstrate the versatility of sentenceMIM
by utilizing a trained model for question-answering and transfer learning,
without fine-tuning, outperforming VAE and AE with similar architectures.
- Abstract(参考訳): SentenceMIMは言語データのための確率論的自動エンコーダであり、可変長言語観測の固定長表現を提供するために相互情報機械(MIM)学習で訓練されている。
言語データのvaesを学ぶ以前の試みは、後方崩壊による課題に直面した。
MIM学習は、観測と潜伏変数の間の高い相互情報を促進し、後方崩壊に対して堅牢である。
したがって、既存の言語vaesよりも桁違いに大きい次元を持つ情報表現を学習する。
重要なことは、SentenceMIM損失にはハイパーパラメータがなく、最適化が簡単である。
文MIMとVAE,AEを複数のデータセットで比較する。
SentenceMIM は AEs に匹敵する優れた再構成をもたらし、VAEs に匹敵するリッチな構造化された潜在空間を持つ。
構造化潜在表現は、異なる長さの文間の補間によって示される。
同様のアーキテクチャのvaeおよびaeを微調整することなく、質問応答と転送学習のトレーニングモデルを用いて、センテンスmimの汎用性を示す。
関連論文リスト
- On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-03-15T00:23:49Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Variational Mutual Information Maximization Framework for VAE Latent
Codes with Continuous and Discrete Priors [5.317548969642376]
変分オートエンコーダ(VAE)は、複雑なデータの有向潜在変数モデルを学習するためのスケーラブルな方法である。
本稿では,VAEのための変分相互情報最大化フレームワークを提案し,この問題に対処する。
論文 参考訳(メタデータ) (2020-06-02T09:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。