Fugu-MT 論文翻訳(概要): HistAlign: Improving Context Dependency in Language Generation by Aligning with History

論文の概要: HistAlign: Improving Context Dependency in Language Generation by Aligning with History

arxiv url: http://arxiv.org/abs/2305.04782v2
Date: Sun, 3 Dec 2023 19:31:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 23:29:22.937149
Title: HistAlign: Improving Context Dependency in Language Generation by Aligning with History
Title（参考訳）: HistAlign: 履歴の調整による言語生成におけるコンテキスト依存性の改善
Authors: David Wan, Shiyue Zhang, Mohit Bansal
Abstract要約: 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。近年のメモリでLMを増大させるキャッシュ-LMは、コンテキスト依存性を増大させる可能性がある。 HistAlignはキャッシュの整合性を確保するための新しいトレーニング手法だ。
参考スコア（独自算出の注目度）: 96.35214682008701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) can generate hallucinations and incoherent outputs, which highlights their weak context dependency. Cache-LMs, which augment LMs with a memory of recent history, can increase context dependency and have shown remarkable performance in diverse language generation tasks. However, we find that even with training, the performance gain stemming from the cache component of current cache-LMs is suboptimal due to the misalignment between the current hidden states and those stored in the memory. In this work, we present HistAlign, a new training approach to ensure good cache alignment such that the model receives useful signals from the history. We first prove our concept on a simple and synthetic task where the memory is essential for correct predictions, and we show that the cache component of HistAlign is better aligned and improves overall performance. Next, we evaluate HistAlign on diverse downstream language generation tasks, including prompt continuation, abstractive summarization, and data-to-text. We demonstrate that HistAlign improves text coherence and faithfulness in open-ended and conditional generation settings respectively. HistAlign is also generalizable across different model families, showcasing its strength in improving context dependency of LMs in diverse scenarios. Our code is publicly available at https://github.com/meetdavidwan/histalign
Abstract（参考訳）: 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。近年のメモリでLMを増強するCache-LMは、コンテキスト依存性を高め、多様な言語生成タスクで顕著なパフォーマンスを示した。しかし,トレーニング中であっても,現在のキャッシュ-LMのキャッシュ成分から生じる性能向上は,現在の隠蔽状態とメモリに格納されているメモリとのミスアライメントにより,最適以下であることが判明した。本研究では,モデルが履歴から有用な信号を受信するように,キャッシュアライメントの整合性を確保するための新しいトレーニング手法HistAlignを提案する。我々はまず、メモリが正しい予測に不可欠である単純で総合的なタスクの概念を証明し、HistAlignのキャッシュコンポーネントがより整合し、全体的なパフォーマンスを改善することを示す。次に, 高速継続, 抽象要約, データ・ツー・テキストなど, 多様な下流言語生成タスクにおけるヒスタリグを評価する。 HistAlignは、オープンエンドおよび条件付き生成設定におけるテキストコヒーレンスと忠実性をそれぞれ改善することを示した。 HistAlignはさまざまなモデルファミリにまたがって一般化可能であり、多様なシナリオにおけるLMのコンテキスト依存性を改善する上での強みを示している。私たちのコードはhttps://github.com/meetdavidwan/histalignで公開されています。

関連論文リスト

Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。 MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T15:38:42Z)
CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文参考訳（メタデータ） (2025-08-04T08:28:25Z)
InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。 InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文参考訳（メタデータ） (2025-05-23T07:33:25Z)
PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文参考訳（メタデータ） (2025-02-24T19:48:00Z)
Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文参考訳（メタデータ） (2024-07-25T12:56:22Z)
HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文参考訳（メタデータ） (2024-05-09T19:32:49Z)
FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference [47.03691582405274]
大規模言語モデル(LLM)を外部コーパスから関連文書と統合した検索言語モデリング(RALM)は,情報生成の実証手法である。検索したコンテンツを利用する以前の作業は、単に入力にプリプロンプトするだけで実行時の問題が発生する。我々は、付加コンテキストパターンを用いて、ALMの推論効率を改善するために設計されたモジュラーALMであるFlashBackを提案する。
論文参考訳（メタデータ） (2024-05-07T07:14:38Z)
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文参考訳（メタデータ） (2024-04-17T18:13:16Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。語彙定義意味論(vocabulary-defined semantics)を提案する。
論文参考訳（メタデータ） (2024-01-29T14:29:48Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。