Fugu-MT 論文翻訳(概要): Developing Adaptive Context Compression Techniques for Large Language Models (LLMs) in Long-Running Interactions

論文の概要: Developing Adaptive Context Compression Techniques for Large Language Models (LLMs) in Long-Running Interactions

arxiv url: http://arxiv.org/abs/2603.29193v1
Date: Tue, 31 Mar 2026 02:57:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.067625
Title: Developing Adaptive Context Compression Techniques for Large Language Models (LLMs) in Long-Running Interactions
Title（参考訳）: 長期動作における大規模言語モデル(LLM)に対する適応文脈圧縮手法の開発
Authors: Payal Fofadiya, Sunil Tiwari,
Abstract要約: 大規模言語モデル(LLM)は、コンテキスト長、メモリ飽和、計算オーバーヘッドの増大により、長時間にわたる相互作用の間、性能劣化を経験することが多い。本稿では,重要メモリ選択,コヒーレンス・インテリジェンス・フィルタリング,動的予算配分を統合し,コンテキスト成長を制御しながら,重要な会話情報を保持する適応型コンテキスト圧縮フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) often experience performance degradation during long-running interactions due to increasing context length, memory saturation, and computational overhead. This paper presents an adaptive context compression framework that integrates importance-aware memory selection, coherence-sensitive filtering, and dynamic budget allocation to retain essential conversational information while controlling context growth. The approach is evaluated on LOCOMO, LOCCO, and LongBench benchmarks to assess answer quality, retrieval accuracy, coherence preservation, and efficiency. Experimental results demonstrate that the proposed method achieves consistent improvements in conversational stability and retrieval performance while reducing token usage and inference latency compared with existing memory and compression-based approaches. These findings indicate that adaptive context compression provides an effective balance between long-term memory preservation and computational efficiency in persistent LLM interactions
Abstract（参考訳）: 大規模言語モデル(LLM)は、コンテキスト長、メモリ飽和、計算オーバーヘッドの増大により、長時間にわたる相互作用の間、性能劣化を経験することが多い。本稿では,重要メモリ選択,コヒーレンス・インテリジェンス・フィルタリング,動的予算配分を統合し,コンテキスト成長を制御しながら,重要な会話情報を保持する適応型コンテキスト圧縮フレームワークを提案する。この手法はLOCOMO,LOCCO,LongBenchのベンチマークで評価され,回答の品質,検索精度,コヒーレンス保存,効率を評価する。提案手法は,既存のメモリや圧縮方式と比較して,トークン使用率や推論遅延を低減しつつ,会話の安定性と検索性能を一貫した改善することを示した。これらの結果から,適応文脈圧縮は長期記憶の保存とLLMの持続的相互作用における計算効率のバランスに有効であることが示唆された。

関連論文リスト

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文参考訳（メタデータ） (2026-03-02T15:15:11Z)
HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling [7.24393498822329]
HyMemは、マルチグラニュラメモリ表現による動的オンデマンドスケジューリングを可能にするハイブリッドメモリアーキテクチャである。 LOCOMOとLongMemEvalのベンチマークにおいて,HyMemは高い性能を示し,計算コストを92.6%削減した。
論文参考訳（メタデータ） (2026-02-15T00:06:19Z)
Gated Differentiable Working Memory for Long-Context Language Modeling [80.27483324685434]
本稿では,Gdwm(Gated Differentiable Working Memory)を提案する。 ZeroSCROLLS と LongBench v2 の実験では、Gdwm は均一なベースラインよりも 4$times$ の勾配ステップで同等または優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2026-01-19T10:00:33Z)
SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2026-01-05T21:02:49Z)
Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。 TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-12-10T01:54:57Z)
CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。 CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文参考訳（メタデータ） (2025-09-11T07:13:49Z)
Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文参考訳（メタデータ） (2025-06-13T06:49:53Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
Contextual Compression Encoding for Large Language Models: A Novel Framework for Multi-Layered Parameter Space Pruning [0.0]
文脈圧縮。 (CCE)はパラメータ分布を動的に再構成する多段符号化機構を導入した。 CCEは言語表現力とコヒーレンスを維持し、テキスト生成や分類タスクの精度を維持した。
論文参考訳（メタデータ） (2025-02-12T11:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。