Fugu-MT 論文翻訳(概要): With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation

論文の概要: With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation

arxiv url: http://arxiv.org/abs/2401.11504v3
Date: Wed, 11 Sep 2024 02:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 22:03:32.425255
Title: With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation
Title（参考訳）: テキストの長文生成を支援する推論時間トレーニング
Authors: Y. Wang, D. Ma, D. Cai,
Abstract要約: 長文生成は、現在の言語モデルに重大な課題をもたらす。提案手法であるTemp-Loraは代替概念を提案する。長いテキスト生成の過程で、このモジュールは、以前に生成されたテキストで徐々に訓練される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long text generation, such as novel writing and discourse-level translation with extremely long contexts, presents significant challenges to current language models. Existing methods mainly focus on extending the model's context window through strategies like length extrapolation. However, these approaches demand substantial hardware resources during the training and/or inference phases. Our proposed method, Temp-Lora, introduces an alternative concept. Instead of relying on the KV cache to store all context information, we embeds this information directly into a temporary Lora module. In the process of long text generation, this module is progressively trained with text generated previously. This approach not only efficiently preserves contextual knowledge but also prevents any permanent alteration to the model's parameters given that the module is discarded post-generation. Extensive experiments on the PG19 language modeling benchmark and the GuoFeng discourse-level translation benchmark validate the effectiveness of Temp-Lora. Our results show that: 1) Temp-Lora substantially enhances generation quality for long text, as indicated by a 13.2% decrease in perplexity (PPL) on a subset of PG19, and a 29.3% decrease in PPL along with a 113.2% increase in BLEU score on a subset of GuoFeng, 2) Temp-Lora is compatible with and enhances most existing long text generation methods, and 3) Temp-Lora can greatly reduce computational costs by shortening the context window. For example, we can ensure a moderate improvement in generation quality (a decrease of 3.8% in PPL) while enabling a 51.5% memory usage reduction and a 60.0% decrease in latency for inference.
Abstract（参考訳）: 非常に長い文脈で書かれた小説や談話レベルの翻訳のような長文生成は、現在の言語モデルに重大な課題をもたらす。既存のメソッドは主に長さの外挿のような戦略を通じてモデルのコンテキストウィンドウを拡張することに重点を置いています。しかし、これらのアプローチはトレーニングおよび/または推論フェーズの間、かなりのハードウェアリソースを必要とする。提案手法であるTemp-Loraは代替概念を提案する。すべてのコンテキスト情報を格納するためにKVキャッシュに頼る代わりに、この情報を一時的なLoraモジュールに直接埋め込む。長いテキスト生成の過程で、このモジュールは、以前に生成されたテキストで徐々に訓練される。このアプローチは文脈的知識を効率的に保存するだけでなく、モジュールが後世代で破棄されたことを前提に、モデルパラメータの永続的な変更を防ぎます。 PG19言語モデリングベンチマークとGuoFeng談話レベル翻訳ベンチマークの大規模な実験により、Temp-Loraの有効性が検証された。私たちの結果はこう示しています。 1)Temp-LoraはPG19のサブセットで13.2%のパープレキシティ(PPL)が減少し、29.3%のPPLが減少し、GuoFengのサブセットでは113.2%のBLEUスコアが増加した。 2) Temp-Loraは、既存の長文生成方法と互換性があり、拡張されている。 3)Temp-Loraはコンテキストウィンドウを短くすることで計算コストを大幅に削減できる。例えば、生成品質の適度な改善(PPLの3.8%の低下)を確実にすると同時に、51.5%のメモリ使用量の削減と、推論のレイテンシの60.0%の削減を可能にします。

関連論文リスト

ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time [5.554829574749047]
ourmodelacronym(Extend at Test-Time)は、短いコンテキストのコンテクスト長を変換子ベースの言語モデルに拡張する手法である。 GPT-LargeとPhi-2のコンテキスト長を32倍に拡張し,LongBench上のETTを評価する。
論文参考訳（メタデータ） (2025-07-08T18:06:45Z)
RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文参考訳（メタデータ） (2025-03-02T06:11:29Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation [79.90766312484489]
回復蒸留(LongReD)による長期事前トレーニング LongReDは、選択されたレイヤの隠れた状態をオリジナルのモデルから短いテキストで蒸留する。一般的なテキストベンチマークの実験では、LongReDはモデルの短文性能を効果的に維持することを示した。
論文参考訳（メタデータ） (2025-02-11T08:37:16Z)
Length-Induced Embedding Collapse in PLM-based Models [7.127156731612495]
私たちはLength Collapseと呼ぶ現象を導入し、長いテキストの埋め込みをまとめる傾向があります。これらの違いが、下流の様々なタスクにおいて長いテキストで観察されるパフォーマンス低下にどのように寄与するかを考察する。この問題に対処するため,Longth Collapse現象を緩和する簡単なTempScale法を提案する。
論文参考訳（メタデータ） (2024-10-31T17:55:36Z)
Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-31T13:47:10Z)
Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。 LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-10-08T16:10:29Z)
FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models [24.030755262499994]
FastMemは、命令を微調整した大規模言語モデルのコンテキスト認識を強化するために設計された新しい手法である。最後のFeed-Forward Network(FFN)モジュールのみを更新することで、推論前のプロンプトの可能性を最大化する。本実験は, 読解理解, テキスト要約, 出力構造への順守において, かなりの効果を示した。
論文参考訳（メタデータ） (2024-06-23T10:36:35Z)
Enforcing Paraphrase Generation via Controllable Latent Diffusion [60.82512050963046]
textitLatent textitDiffusion textitParaphraser(LDP)を提案する。実験により, LDPはベースラインに比べて改良され, 多様なパラフレーズ生成を達成できることが示された。
論文参考訳（メタデータ） (2024-04-13T09:24:32Z)
Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文参考訳（メタデータ） (2024-04-10T11:03:17Z)
Extending Context Window of Large Language Models via Semantic Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。本稿では,テキストを6～8倍長大に一般化するセマンティック圧縮手法を提案する。
論文参考訳（メタデータ） (2023-12-15T07:04:33Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [90.96447932006822]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文参考訳（メタデータ） (2023-10-26T05:01:09Z)
Compressing Context to Enhance Inference Efficiency of Large Language Models [26.75216730927996]
本稿では,大規模言語モデル(LLM)の推論効率を向上させるための選択文脈法を提案する。我々は、arXiv論文、ニュース記事、長い会話など、長いコンテキスト処理を必要とする共通のデータソースを用いて、アプローチをテストする。実験の結果,Selective Contextはメモリコストを大幅に削減し,生成遅延を低減させることがわかった。
論文参考訳（メタデータ） (2023-10-09T23:03:24Z)
Sub-Word Alignment Is Still Useful: A Vest-Pocket Method for Enhancing Low-Resource Machine Translation [4.809907063232602]
我々は,親子間移動学習法を拡張するために,アライメントサブワード間の埋め込み重複を利用する。我々は、My-En、Id-En、Tr-Enの翻訳シナリオのベンチマークデータセットで実験を行う。
論文参考訳（メタデータ） (2022-05-09T06:44:24Z)
Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文参考訳（メタデータ） (2020-01-23T17:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。