Fugu-MT 論文翻訳(概要): MELODI: Exploring Memory Compression for Long Contexts

論文の概要: MELODI: Exploring Memory Compression for Long Contexts

arxiv url: http://arxiv.org/abs/2410.03156v1
Date: Fri, 4 Oct 2024 05:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 03:24:16.258888
Title: MELODI: Exploring Memory Compression for Long Contexts
Title（参考訳）: MELODI: 長期のコンテキストに対するメモリ圧縮の探索
Authors: Yinpeng Chen, DeLesley Hutchins, Aren Jansen, Andrey Zhmoginov, David Racz, Jesper Andersen,
Abstract要約: MELODIは、短いコンテキストウィンドウを使用して長いドキュメントを処理するように設計された新しいメモリアーキテクチャである。提案手法は, 各種長文データセットにおいて, メモリフットプリントを8。
参考スコア（独自算出の注目度）: 25.226515630753106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present MELODI, a novel memory architecture designed to efficiently process long documents using short context windows. The key principle behind MELODI is to represent short-term and long-term memory as a hierarchical compression scheme across both network layers and context windows. Specifically, the short-term memory is achieved through recurrent compression of context windows across multiple layers, ensuring smooth transitions between windows. In contrast, the long-term memory performs further compression within a single middle layer and aggregates information across context windows, effectively consolidating crucial information from the entire history. Compared to a strong baseline - the Memorizing Transformer employing dense attention over a large long-term memory (64K key-value pairs) - our method demonstrates superior performance on various long-context datasets while remarkably reducing the memory footprint by a factor of 8.
Abstract（参考訳）: 本稿では,短いコンテキストウィンドウを用いて,長い文書を効率的に処理できる新しいメモリアーキテクチャMELODIを提案する。 MELODIの鍵となる原理は、短期記憶と長期記憶をネットワーク層とコンテキストウィンドウの両方にわたる階層的な圧縮スキームとして表現することである。特に、短期記憶は、複数のレイヤにわたるコンテキストウィンドウの繰り返し圧縮によって達成され、ウィンドウ間のスムーズな遷移を保証する。対照的に、長期記憶は単一の中間層内でさらなる圧縮を行い、コンテキストウィンドウ全体で情報を集約し、履歴全体から重要な情報を効果的に統合する。強いベースライン – 大規模な長期メモリ(64Kキー値ペア)に対して集中的に注意を払っているMemorizing Transformer – と比較して, 提案手法は, 様々な長期コンテキストデータセットにおいて優れた性能を示し, メモリフットプリントを8。

関連論文リスト

Hierarchical Memory for High-Efficiency Long-Term Reasoning in LLM Agents [19.04968632268433]
大規模言語モデルエージェント(LLMエージェント)のための階層型メモリアーキテクチャを提案する。各メモリベクトルは、次の層のセマンティック関連サブメモリを指し示す位置インデックスが埋め込まれている。推論フェーズにおいて、インデックスベースのルーティング機構は、網羅的な類似性計算を行うことなく、効率的な層間検索を可能にする。
論文参考訳（メタデータ） (2025-07-23T12:45:44Z)
CoMemo: LVLMs Need Image Context with Image Memory [51.681858871027345]
CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。 2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
論文参考訳（メタデータ） (2025-06-06T17:59:06Z)
Memory OS of AI Agent [3.8665965906369375]
大きな言語モデル(LLM)は、固定されたコンテキストウィンドウと不十分なメモリ管理から重要な課題に直面します。本稿では,AIエージェントの総合的かつ効率的なメモリ管理を実現するために,メモリオペレーティングシステム(MemoryOS)を提案する。
論文参考訳（メタデータ） (2025-05-30T15:36:51Z)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。 MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
Cognitive Memory in Large Language Models [8.059261857307881]
本稿では,Large Language Models (LLMs) における記憶機構について検討し,文脈に富む応答の重要性,幻覚の減少,効率の向上などを強調した。メモリは、インプットプロンプト、短期記憶処理の即時コンテキスト、外部データベースや構造を介して実装された長期記憶に対応して、インプットプロンプト、短期記憶、長期記憶に分類する。
論文参考訳（メタデータ） (2025-04-03T09:58:19Z)
R$^3$Mem: Bridging Memory Retention and Retrieval via Reversible Compression [24.825945729508682]
情報保持と検索の両方を最適化するメモリネットワークであるR$3$Memを提案する。 R$3$Memは、仮想メモリトークンを使用して無限に長い履歴を圧縮およびエンコードし、階層的な圧縮戦略によってさらに強化される。実験により,長文言語モデリングおよび検索強化生成タスクにおいて,メモリ設計が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-02-21T21:39:00Z)
On Memory Construction and Retrieval for Personalized Conversational Agents [69.46887405020186]
本稿では,セグメンテーションモデルを導入し,セグメントレベルでメモリバンクを構築するセグメンテーション手法であるSeComを提案する。実験結果から,SeComは長期会話ベンチマークLOCOMOとLong-MT-Bench+のベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2025-02-08T14:28:36Z)
ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文参考訳（メタデータ） (2024-11-23T13:23:22Z)
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文参考訳（メタデータ） (2024-06-11T12:03:57Z)
Memory-Inspired Temporal Prompt Interaction for Text-Image Classification [13.449375069856684]
我々は、人間の記憶戦略、すなわちメモリインスパイアされたテンポラルプロンプトインタラクション(MITP)にインスパイアされた、新しいプロンプトベースのマルチモーダルインタラクション戦略を提案する。我々は、中間層上の時間的プロンプトを利用して取得段階を模倣し、類似性に基づくプロンプト相互作用を利用してメモリ統合を模倣し、メモリアクティベーションを模倣するプロンプト生成戦略を採用する。比較的少ないメモリ使用量とトレーニング可能なパラメータの2.0Mのデータセットで競合する結果が得られる。
論文参考訳（メタデータ） (2024-01-26T13:36:12Z)
MemGPT: Towards LLMs as Operating Systems [50.02623936965231]
大規模言語モデル(LLM)はAIに革命をもたらしたが、限られたコンテキストウィンドウによって制約されている。従来のオペレーティングシステムにおける階層型メモリシステムからのインスピレーションを引き出す技術である仮想コンテキスト管理を提案する。私たちはMemGPTコードと実験のためのデータをhttps://memgpt.ai.comでリリースします。
論文参考訳（メタデータ） (2023-10-12T17:51:32Z)
Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文参考訳（メタデータ） (2023-06-12T15:13:39Z)
READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T08:31:16Z)
Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-26T07:25:31Z)
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。 XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2022-07-14T17:59:37Z)
Space Time Recurrent Memory Network [35.06536468525509]
本研究では,空間時間領域における学習・推論問題に対する新しい視覚記憶ネットワークアーキテクチャを提案する。このアーキテクチャは、ビデオオブジェクトのセグメンテーションとビデオ予測の問題に基づいてベンチマークされる。我々のメモリアーキテクチャは、一定のメモリ容量を維持しつつ、最先端技術と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2021-09-14T06:53:51Z)
Temporal Memory Relation Network for Workflow Recognition from Surgical Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文参考訳（メタデータ） (2021-03-30T13:20:26Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。