論文の概要: HistAlign: Improving Context Dependency in Language Generation by
Aligning with History
- arxiv url: http://arxiv.org/abs/2305.04782v1
- Date: Mon, 8 May 2023 15:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:49:56.753259
- Title: HistAlign: Improving Context Dependency in Language Generation by
Aligning with History
- Title(参考訳): HistAlign: 履歴の調整による言語生成におけるコンテキスト依存性の改善
- Authors: David Wan, Shiyue Zhang, Mohit Bansal
- Abstract要約: 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。
近年のメモリでLMを増大させるキャッシュ-LMは、コンテキスト依存性を増大させる可能性がある。
HistAlignはキャッシュの整合性を確保するための新しいトレーニング手法だ。
- 参考スコア(独自算出の注目度): 91.86501509439815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) can generate hallucinations and incoherent outputs,
which highlights their weak context dependency. Cache-LMs, which augment LMs
with a memory of recent history, can increase context dependency and have shown
remarkable performance in diverse language generation tasks. However, we find
that even with training, the performance gain stemming from the cache component
of current cache-LMs is suboptimal due to the misalignment between the current
hidden states and those stored in the memory. In this work, we present
HistAlign, a new training approach to ensure good cache alignment such that the
model receives useful signals from the history. We first prove our concept on a
simple and synthetic task where the memory is essential for correct
predictions, and we show that the cache component of HistAlign is better
aligned and improves overall performance. Next, we evaluate HistAlign on
diverse downstream language generation tasks, including prompt continuation,
abstractive summarization, and data-to-text. We demonstrate that HistAlign
improves text coherence and faithfulness in open-ended and conditional
generation settings respectively. HistAlign is also generalizable across
different model families, showcasing its strength in improving context
dependency of LMs in diverse scenarios. Our code is publicly available at
https://github.com/meetdavidwan/histalign
- Abstract(参考訳): 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。
近年のメモリでLMを増強するCache-LMは、コンテキスト依存性を高め、多様な言語生成タスクで顕著なパフォーマンスを示した。
しかし,トレーニング中であっても,現在のキャッシュ-LMのキャッシュ成分から生じる性能向上は,現在の隠蔽状態とメモリに格納されているメモリとのミスアライメントにより,最適以下であることが判明した。
本研究では,モデルが履歴から有用な信号を受信するように,キャッシュアライメントの整合性を確保するための新しいトレーニング手法HistAlignを提案する。
我々はまず、メモリが正しい予測に不可欠である単純で総合的なタスクの概念を証明し、HistAlignのキャッシュコンポーネントがより整合し、全体的なパフォーマンスを改善することを示す。
次に, 高速継続, 抽象要約, データ・ツー・テキストなど, 多様な下流言語生成タスクにおけるヒスタリグを評価する。
HistAlignは、オープンエンドおよび条件付き生成設定におけるテキストコヒーレンスと忠実性をそれぞれ改善することを示した。
HistAlignはさまざまなモデルファミリにまたがって一般化可能であり、多様なシナリオにおけるLMのコンテキスト依存性を改善する上での強みを示している。
私たちのコードはhttps://github.com/meetdavidwan/histalignで公開されています。
関連論文リスト
- Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference [47.03691582405274]
大規模言語モデル(LLM)を外部コーパスから関連文書と統合した検索言語モデリング(RALM)は,情報生成の実証手法である。
検索したコンテンツを利用する以前の作業は、単に入力にプリプロンプトするだけで実行時の問題が発生する。
我々は、付加コンテキストパターンを用いて、ALMの推論効率を改善するために設計されたモジュラーALMであるFlashBackを提案する。
論文 参考訳(メタデータ) (2024-05-07T07:14:38Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。