Fugu-MT 論文翻訳(概要): SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context

論文の概要: SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context

arxiv url: http://arxiv.org/abs/2408.00655v5
Date: Wed, 14 Aug 2024 07:34:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 15:28:26.649630
Title: SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context
Title（参考訳）: SentenceVAE: 高速,高精度,コンテキストの長い大規模言語モデルの次文予測を可能にする
Authors: Hongjun An, Yifan Chen, Zhe Sun, Xuelong Li,
Abstract要約: 本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
参考スコア（独自算出の注目度）: 49.9628075245959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current large language models (LLMs) primarily utilize next-token prediction method for inference, which significantly impedes their processing speed. In this paper, we introduce a novel inference methodology termed next-sentence prediction, aiming at enhancing the inference efficiency of LLMs. We present Sentence Variational Autoencoder (SentenceVAE), which includes a Sentence Encoder to compress multiple tokens in a sentence into a single token, and a Sentence Decoder to reconstruct it. By integrating SentenceVAE into the input and output layers of LLMs, we develop Sentence-level LLMs (SLLMs) that employ a sentence-by-sentence inference method. In addition, the SentenceVAE module of SLLMs can maintain the integrity of the original semantic content by segmenting the context into sentences, thereby improving accuracy while boosting inference speed. Moreover, compared to previous LLMs, SLLMs process fewer tokens over equivalent context length, significantly reducing memory demands for self-attention computation and facilitating the handling of longer context. Extensive experiments on Wanjuan dataset have revealed that the proposed method can accelerate inference speed by 204~365%, reduce perplexity (PPL) to 46~75% of its original metric, and decrease memory overhead by 86~91% for the equivalent context length, compared to previous token-by-token methods.
Abstract（参考訳）: 現在の大規模言語モデル (LLM) は、主に推論に次トーケン予測法を用いており、処理速度を著しく損なう。本稿では,LLMの推論効率を向上させることを目的とした,次世代予測と呼ばれる新しい推論手法を提案する。本稿では,文中の複数のトークンを1つのトークンに圧縮する文変分自動エンコーダ(文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。 LLMの入力層と出力層にSentenceVAEを組み込むことで,文ごとの推論手法を用いたSLLM(Sentence-level LLM)を開発する。さらに、SLLMのSentenceVAEモジュールは、コンテキストを文にセグメント化することで、元の意味内容の完全性を維持することができ、推論速度を向上しながら精度を向上させることができる。さらに、従来のLLMと比較して、SLLMは等価コンテキスト長よりも少ないトークンを処理し、自己アテンション計算のメモリ要求を著しく低減し、より長いコンテキストの処理を容易にする。 Wanjuanデータセットの大規模な実験により、提案手法は推論速度を204～365%高速化し、パープレキシティ(PPL)を46～75%削減し、メモリオーバーヘッドを86～91%削減できることが明らかになった。

関連論文リスト

TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。 TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文参考訳（メタデータ） (2025-11-17T10:38:56Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Contrastive Prompting Enhances Sentence Embeddings in LLMs through Inference-Time Steering [12.982890198455701]
本稿では,より優れた文の埋め込みを促すために補助的なプロンプトを付加するContrastive Prompting (CP)法を提案する。補助的なプロンプトと対照的に、CPは文のコアセマンティクスをエンコードする既存のプロンプトを操ることができる。提案手法は,異なる大規模言語モデル間で既存のプロンプトベースの手法の性能を向上させることができる。
論文参考訳（メタデータ） (2025-05-19T08:19:27Z)
Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs [10.213016513358598]
Token Prepending (TP) 技術は、各レイヤのデコードされた文を次のレイヤの入力に埋め込む。 TP技術はプラグアンドプレイおよびトレーニングフリー技術であり、即時ベースの文埋め込み手法とシームレスに統合できる。
論文参考訳（メタデータ） (2024-12-16T08:42:00Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文参考訳（メタデータ） (2024-09-02T13:02:51Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文参考訳（メタデータ） (2024-04-04T17:48:28Z)
CLLMs: Consistency Large Language Models [18.17892007267927]
Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2024-02-28T20:17:04Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文参考訳（メタデータ） (2023-05-09T11:00:02Z)
Span Fine-tuning for Pre-trained Language Models [43.352833140317486]
本稿では,PrLMのためのスパンファインチューニング手法を提案する。 PrLMによって処理されたすべての文は、プリサンプル辞書に従って複数のスパンに分割される。 GLUEベンチマーク実験の結果,提案手法はPrLMを大幅に向上させることがわかった。
論文参考訳（メタデータ） (2021-08-29T14:11:38Z)
Enhancing Pre-trained Language Model with Lexical Simplification [41.34550924004487]
lexical simplification (ls) は、そのような語彙の多様性を減らすための認識された方法である。テキスト分類におけるPrLMの性能を効果的に向上する新しい手法を提案する。
論文参考訳（メタデータ） (2020-12-30T07:49:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。