論文の概要: A Dynamic Retrieval-Augmented Generation System with Selective Memory and Remembrance
- arxiv url: http://arxiv.org/abs/2601.02428v1
- Date: Sun, 04 Jan 2026 21:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.657752
- Title: A Dynamic Retrieval-Augmented Generation System with Selective Memory and Remembrance
- Title(参考訳): 記憶と記憶を選択的に組み合わせた動的検索・拡張生成システム
- Authors: Okan Bursa,
- Abstract要約: Emph Adaptive RAG Memory (ARM) は,静的ベクトルインデックスをEmphdynamicメモリ基板に置き換える検索拡張生成(RAG)フレームワークである。
ARMは、軽量な検索ベンチマークで最先端のパフォーマンスに近づいた。
ARMは、ジェネレータカラーブラックを再トレーニングすることなく、競合精度、自己正規化メモリ成長、解釈可能な保持ダイナミクスを出力し、生産・研究RAGシステムの品質、レイテンシ、メモリ効率のトレードオフを実践する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce \emph{Adaptive RAG Memory} (ARM), a retrieval-augmented generation (RAG) framework that replaces a static vector index with a \emph{dynamic} memory substrate governed by selective remembrance and decay. Frequently retrieved items are consolidated and protected from forgetting, while rarely used items gradually decay, inspired by cognitive consolidation and forgetting principles. On a lightweight retrieval benchmark, ARM reaches near state-of-the-art performance (e.g., NDCG@5 $\approx$ 0.940, Recall@5 $=1.000$) with only $\sim$22M parameters in the embedding layer, achieving the best efficiency among ultra-efficient models ($<$25M parameters). In addition, we compare static vs. dynamic RAG combinations across Llama 3.1 and GPT-4o. Llama 3.1 with static RAG achieves the highest key-term coverage (67.2\%) at moderate latency, while GPT-4o with a dynamic selective retrieval policy attains the fastest responses (8.2s on average) with competitive coverage (58.7\%). We further present an engineering optimization of the DynamicRAG implementation, making embedding weights configurable, adjustable at runtime, and robust to invalid settings. ARM yields competitive accuracy, self-regularizing memory growth, and interpretable retention dynamics without retraining the generator\color{black} and provides practical trade-off between quality, latency and memory efficiency for production and research RAG system.
- Abstract(参考訳): 本稿では, 静的ベクトルインデックスを選択的共振と減衰によって制御されるメモリ基板に置き換える検索拡張生成(RAG)フレームワークである \emph{Adaptive RAG Memory} (ARM) を紹介する。
しばしば回収されたアイテムは統合され、忘れることから保護されるが、ほとんど使われないアイテムは徐々に衰退し、認知的な統合と原則を忘れることに触発される。
軽量なベンチマークでは、ARMは最先端のパフォーマンス(例えば、NDCG@5 $\approx$0.940、Recall@5 $=1.000$)に近づき、埋め込み層には$\sim$22Mパラメータしかなく、超効率的なモデル($25Mパラメータ)の中で最高の効率を達成する。
さらに,Llama 3.1 と GPT-4o の静的対動的 RAG の組み合わせを比較した。
静的なRAGを持つLlama 3.1は、中程度のレイテンシで最高キー長カバレッジ(67.2\%)を達成する一方、動的選択検索ポリシーを持つGPT-4oは、競合カバレッジ(58.7\%)で最速のレスポンス(8.2s)を達成する。
さらに、DynamicRAG実装のエンジニアリング最適化を行い、埋め込み重みを設定可能で、実行時に調整可能で、不安定な設定に対して堅牢にします。
ARMは、ジェネレータ\color{black}をリトレーニングすることなく、競合精度、自己正規化メモリ成長、解釈可能な保持ダイナミクスを出力し、RAGシステムの品質、レイテンシ、メモリ効率のトレードオフを実践的に提供する。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - RAGSmith: A Framework for Finding the Optimal Composition of Retrieval-Augmented Generation Methods Across Datasets [0.0]
RAGSmithは、RAGを9つのテクニックファミリと46,080の実行可能なパイプライン構成上のエンドツーエンドアーキテクチャ検索として扱うフレームワークである。
我々は、ウィキペディア由来の6つのドメイン(Law, Finance, Medicine, Defense Industry, Computer Science)について、それぞれ100の質問を設計、解釈、長期回答のタイプで評価した。
RAGSmithは平均で+3.8%(ドメイン全体で+1.2%から+6.9%)、検索で+12.5%、世代で+7.5%である。
論文 参考訳(メタデータ) (2025-11-03T09:36:27Z) - HyperAdaLoRA: Accelerating LoRA Rank Allocation During Training via Hypernetworks without Sacrificing Performance [27.391727025825546]
Low-Rank Adaptation (LoRA)は、大規模言語モデルを微調整するための有望なアプローチとして登場した。
本稿では,ハイパーネットワークを活用してAdaLoRAの収束を促進する新しいフレームワークであるHyperAdaLoRAを提案する。
本手法は性能を犠牲にすることなく高速な収束を実現する。
論文 参考訳(メタデータ) (2025-10-03T00:15:59Z) - TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - ProfilingAgent: Profiling-Guided Agentic Reasoning for Adaptive Model Optimization [7.64805011214817]
プロファイリングツールは、レイヤごとのレイテンシ、メモリ、計算コストを公開しますが、自動化パイプラインに統合されることはめったにありません。
提案するProfilingAgentは,大規模言語モデル(LLM)を用いて,構造化プルーニングと後学習動的量子化による圧縮を自動化するエージェント手法である。
論文 参考訳(メタデータ) (2025-09-06T04:02:04Z) - Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。
大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-10T18:04:52Z) - Deep Reinforcement Learning-Based DRAM Equalizer Parameter Optimization Using Latent Representations [4.189643331553922]
本稿では,学習した潜時信号表現を用いた効率的な信号整合性評価のためのデータ駆動型フレームワークを提案する。
業界標準のダイナミックランダムアクセスメモリ波形の適用により、窓面積が大幅に改善された。
論文 参考訳(メタデータ) (2025-07-03T06:53:51Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Bridging Models to Defend: A Population-Based Strategy for Robust Adversarial Defense [70.39517230717126]
敵の堅牢性(Adrial robustness)は、ニューラルネットワークが推論時に敵の攻撃に耐える能力の重要な尺度である。
本稿では,新しいロバストモード接続性(RMC)指向の対角防御フレームワークを提案する。
提案手法は, $ell_infty$, $ell$, およびハイブリッド攻撃に対するロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-03-17T19:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。