論文の概要: With Greater Text Comes Greater Necessity: Inference-Time Training Helps
Long Text Generation
- arxiv url: http://arxiv.org/abs/2401.11504v1
- Date: Sun, 21 Jan 2024 14:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:08:50.059763
- Title: With Greater Text Comes Greater Necessity: Inference-Time Training Helps
Long Text Generation
- Title(参考訳): テキストの長文生成を支援する推論時間トレーニング
- Authors: Y. Wang, D. Ma, D. Cai
- Abstract要約: 長文生成は、現在の言語モデルに重大な課題をもたらす。
提案手法であるTemp-Loraは,文脈情報をモデルパラメータに直接埋め込む。
PG19言語モデリングベンチマークとGuoFeng談話レベル翻訳ベンチマークの大規模な実験により、Temp-Loraの有効性が検証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long text generation, such as novel writing or discourse-level translation
with extremely long contexts, presents significant challenges to current
language models. Existing methods mainly focus on extending the model's context
window through strategies like length extrapolation. However, these approaches
demand substantial hardware resources during the training and/or inference
phases. Our proposed method, Temp-Lora, introduces an alternative concept.
Instead of relying on the KV cache to store all context information, Temp-Lora
embeds this information directly into the model's parameters. In the process of
long text generation, we use a temporary Lora module, progressively trained
with text generated previously. This approach not only efficiently preserves
contextual knowledge but also prevents any permanent alteration to the model's
parameters given that the module is discarded post-generation. Extensive
experiments on the PG19 language modeling benchmark and the GuoFeng
discourse-level translation benchmark validate the effectiveness of Temp-Lora.
Our results show that: 1) Temp-Lora substantially enhances generation quality
for long texts, as indicated by a 13.2% decrease in perplexity on a subset of
PG19, and a 29.6% decrease in perplexity along with a 53.2% increase in BLEU
score on GuoFeng, 2) Temp-Lora is compatible with and enhances most existing
long text generation methods, and 3) Temp-Lora can greatly reduce computational
costs by shortening the context window. While ensuring a slight improvement in
generation quality (a decrease of 3.8% in PPL), it enables a reduction of 70.5%
in the FLOPs required for inference and a 51.5% decrease in latency.
- Abstract(参考訳): 長文生成、例えば、非常に長い文脈を持つ談話レベルの翻訳は、現在の言語モデルに重大な課題をもたらす。
既存のメソッドは主に、長さ外挿のような戦略を通してモデルのコンテキストウィンドウを拡張することに重点を置いている。
しかし、これらのアプローチはトレーニングおよび/または推論フェーズの間にかなりのハードウェアリソースを必要とする。
提案手法であるTemp-Loraは代替概念を提案する。
すべてのコンテキスト情報を格納するためにKVキャッシュに頼る代わりに、Temp-Loraはこの情報をモデルのパラメータに直接埋め込む。
長いテキスト生成の過程では、以前生成されたテキストで徐々に訓練された一時的なloraモジュールを使用する。
このアプローチは文脈的知識を効率的に保存するだけでなく、モジュールが後世代で破棄されたことを前提に、モデルパラメータの永続的な変更を防ぎます。
PG19言語モデリングベンチマークとGuoFeng談話レベル翻訳ベンチマークの大規模な実験により、Temp-Loraの有効性が検証された。
結果はこう示しています
1) temp-loraは、pg19のサブセットのパープレキシティが13.2%減少し、29.6%のパープレキシティが低下し、guofengのbleuスコアが53.2%上昇し、長文の生成品質が大幅に向上する。
2) Temp-Loraは、既存の長文生成方法と互換性があり、拡張されている。
3)Temp-Loraはコンテキストウィンドウを短くすることで計算コストを大幅に削減できる。
世代品質のわずかな改善(pplの3.8%の減少)を保証しながら、推論に必要なフロップの70.5%の削減とレイテンシの51.5%の削減が可能である。
関連論文リスト
- InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation [79.90766312484489]
回復蒸留(LongReD)による長期事前トレーニング
LongReDは、選択されたレイヤの隠れた状態をオリジナルのモデルから短いテキストで蒸留する。
一般的なテキストベンチマークの実験では、LongReDはモデルの短文性能を効果的に維持することを示した。
論文 参考訳(メタデータ) (2025-02-11T08:37:16Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models [24.030755262499994]
FastMemは、命令を微調整した大規模言語モデルのコンテキスト認識を強化するために設計された新しい手法である。
最後のFeed-Forward Network(FFN)モジュールのみを更新することで、推論前のプロンプトの可能性を最大化する。
本実験は, 読解理解, テキスト要約, 出力構造への順守において, かなりの効果を示した。
論文 参考訳(メタデータ) (2024-06-23T10:36:35Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [90.96447932006822]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。
DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文 参考訳(メタデータ) (2023-10-26T05:01:09Z) - Compressing Context to Enhance Inference Efficiency of Large Language
Models [26.75216730927996]
本稿では,大規模言語モデル(LLM)の推論効率を向上させるための選択文脈法を提案する。
我々は、arXiv論文、ニュース記事、長い会話など、長いコンテキスト処理を必要とする共通のデータソースを用いて、アプローチをテストする。
実験の結果,Selective Contextはメモリコストを大幅に削減し,生成遅延を低減させることがわかった。
論文 参考訳(メタデータ) (2023-10-09T23:03:24Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。