論文の概要: HistAlign: Improving Context Dependency in Language Generation by
Aligning with History
- arxiv url: http://arxiv.org/abs/2305.04782v2
- Date: Sun, 3 Dec 2023 19:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:29:22.937149
- Title: HistAlign: Improving Context Dependency in Language Generation by
Aligning with History
- Title(参考訳): HistAlign: 履歴の調整による言語生成におけるコンテキスト依存性の改善
- Authors: David Wan, Shiyue Zhang, Mohit Bansal
- Abstract要約: 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。
近年のメモリでLMを増大させるキャッシュ-LMは、コンテキスト依存性を増大させる可能性がある。
HistAlignはキャッシュの整合性を確保するための新しいトレーニング手法だ。
- 参考スコア(独自算出の注目度): 96.35214682008701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) can generate hallucinations and incoherent outputs,
which highlights their weak context dependency. Cache-LMs, which augment LMs
with a memory of recent history, can increase context dependency and have shown
remarkable performance in diverse language generation tasks. However, we find
that even with training, the performance gain stemming from the cache component
of current cache-LMs is suboptimal due to the misalignment between the current
hidden states and those stored in the memory. In this work, we present
HistAlign, a new training approach to ensure good cache alignment such that the
model receives useful signals from the history. We first prove our concept on a
simple and synthetic task where the memory is essential for correct
predictions, and we show that the cache component of HistAlign is better
aligned and improves overall performance. Next, we evaluate HistAlign on
diverse downstream language generation tasks, including prompt continuation,
abstractive summarization, and data-to-text. We demonstrate that HistAlign
improves text coherence and faithfulness in open-ended and conditional
generation settings respectively. HistAlign is also generalizable across
different model families, showcasing its strength in improving context
dependency of LMs in diverse scenarios. Our code is publicly available at
https://github.com/meetdavidwan/histalign
- Abstract(参考訳): 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。
近年のメモリでLMを増強するCache-LMは、コンテキスト依存性を高め、多様な言語生成タスクで顕著なパフォーマンスを示した。
しかし,トレーニング中であっても,現在のキャッシュ-LMのキャッシュ成分から生じる性能向上は,現在の隠蔽状態とメモリに格納されているメモリとのミスアライメントにより,最適以下であることが判明した。
本研究では,モデルが履歴から有用な信号を受信するように,キャッシュアライメントの整合性を確保するための新しいトレーニング手法HistAlignを提案する。
我々はまず、メモリが正しい予測に不可欠である単純で総合的なタスクの概念を証明し、HistAlignのキャッシュコンポーネントがより整合し、全体的なパフォーマンスを改善することを示す。
次に, 高速継続, 抽象要約, データ・ツー・テキストなど, 多様な下流言語生成タスクにおけるヒスタリグを評価する。
HistAlignは、オープンエンドおよび条件付き生成設定におけるテキストコヒーレンスと忠実性をそれぞれ改善することを示した。
HistAlignはさまざまなモデルファミリにまたがって一般化可能であり、多様なシナリオにおけるLMのコンテキスト依存性を改善する上での強みを示している。
私たちのコードはhttps://github.com/meetdavidwan/histalignで公開されています。
関連論文リスト
- MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [4.997673761305335]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。