論文の概要: LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent
Sentence Spaces
- arxiv url: http://arxiv.org/abs/2312.13208v1
- Date: Wed, 20 Dec 2023 17:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:56:13.475989
- Title: LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent
Sentence Spaces
- Title(参考訳): LlaMaVAE: 継続潜在文空間による大規模言語モデル生成を支援する
- Authors: Yingji Zhang, Danilo S. Carvalho, Ian Pratt-Hartmann, Andr\'e Freitas
- Abstract要約: 本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
- 参考スコア(独自算出の注目度): 1.529963465178546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative neural networks, such as Variational AutoEncoders (VAEs),
offer an opportunity to better understand and control language models from the
perspective of sentence-level latent spaces. To combine the controllability of
VAE latent spaces with the state-of-the-art performance of recent large
language models (LLMs), we present in this work LlaMaVAE, which combines
expressive encoder and decoder models (sentenceT5 and LlaMA) with a VAE
architecture, aiming to provide better text generation control to LLMs. In
addition, to conditionally guide the VAE generation, we investigate a new
approach based on flow-based invertible neural networks (INNs) named Invertible
CVAE. Experimental results reveal that LlaMaVAE can outperform the previous
state-of-the-art VAE language model, Optimus, across various tasks, including
language modelling, semantic textual similarity and definition modelling.
Qualitative analysis on interpolation and traversal experiments also indicates
an increased degree of semantic clustering and geometric consistency, which
enables better generation control.
- Abstract(参考訳): 変分オートエンコーダ(vaes)のような深層生成型ニューラルネットワークは、文レベルの潜在空間の観点から言語モデルの理解と制御を改善する機会を提供する。
本稿では, VAEラテント空間の制御性と最近の大規模言語モデル(LLM)の最先端性能を両立させるため, 表現型エンコーダモデルとデコーダモデル(SentenceT5, LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
さらに,VAE生成を条件付きガイドするために,フローベース可逆ニューラルネットワーク(INN)に基づく新しいアプローチであるInvertible CVAEを検討した。
実験の結果、LlaMaVAEは、言語モデリング、意味的テキストの類似性、定義モデリングなど、様々なタスクにおいて、従来の最先端のVAE言語モデルであるOptimusよりも優れていることがわかった。
補間およびトラバース実験に関する定性的解析は、より優れた生成制御を可能にする意味的クラスタリングと幾何的整合性の増大を示す。
関連論文リスト
- Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
マルチモーダル理解と生成のための離散言語を通して、統一視覚言語モデルセマンティックであるMUSE-VLを紹介する。
提案手法は,様々な視覚言語ベンチマークにおいて,従来の最先端モデルを大幅に上回り,専用の理解モデルよりも優れた性能を実現している。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Learning Disentangled Semantic Spaces of Explanations via Invertible Neural Networks [10.880057430629126]
切り離された潜在空間は、通常、より良い意味分離性と幾何学的性質を持ち、より良い解釈可能性とより制御可能なデータ生成をもたらす。
本研究では,より一般的な文意味的特徴の局所的な修正と制御を目的とした,文の絡み合いのより一般的な形態に着目した。
本稿では,トランスフォーマベース言語であるオートエンコーダ(AE)と統合されたフローベース可逆ニューラルネットワーク(INN)機構を導入し,より分離性に優れた潜在空間を実現する。
論文 参考訳(メタデータ) (2023-05-02T18:27:13Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。