論文の概要: H$^{2}$MT: Semantic Hierarchy-Aware Hierarchical Memory Transformer
- arxiv url: http://arxiv.org/abs/2605.24930v1
- Date: Sun, 24 May 2026 08:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.517205
- Title: H$^{2}$MT: Semantic Hierarchy-Aware Hierarchical Memory Transformer
- Title(参考訳): H$^{2}$MT:Semantic Hierarchy-Aware Hierarchical Memory Transformer
- Authors: Maryam Haghifam, Zifan He, Jason Cong, Yizhou Sun,
- Abstract要約: H2MTは長文推論構造を意識する。
セマンティック階層をオフラインで構築し、ボトムアップのポストオーダーアグリゲーションを通じて各ノードのメモリ埋め込みを計算する。
高速のGPUメモリとTTFT(Time-to-first-Token)を備えた競合するROUGE-LとF1を提供する。
- 参考スコア(独自算出の注目度): 42.43543809277424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based LLMs achieve strong results on many language tasks; however, long inputs remain challenging because context windows are finite, and prefill latency and memory grow rapidly with prompt length. Flat token-stream processing and chunk-based retrieval can therefore spend substantial computation and context budget on text unrelated to the query. Offline-indexed RAG additionally introduces external storage and index management overhead, and typically appends retrieved evidence as raw text, increasing prefill cost and latency. H^{2}MT makes long-context inference structure-aware: it builds a semantic hierarchy offline, computes a memory embedding for each node via bottom-up post-order aggregation, and routes queries coarse-to-fine at inference to prune irrelevant branches early. On LongBench QA (NarrativeQA, HotpotQA, QASPER) and two structured technical-document settings, H MT achieves favorable quality efficiency trade-offs, delivering competitive ROUGE-L and F1 (where applicable) with lower peak GPU memory and time-to-first-token (TTFT) than prompt compression, memory-token methods, and retrieval-augmented generation baselines.
- Abstract(参考訳): トランスフォーマーベースのLLMは、多くの言語タスクにおいて強力な結果を得るが、コンテキストウィンドウが有限であり、プレフィルの待ち時間とメモリが短時間で増加するため、長い入力は依然として困難である。
したがって、フラットトークンストリーム処理とチャンクベースの検索は、クエリとは無関係なテキストに対して、かなりの計算とコンテキスト予算を費やすことができる。
オフラインインデックスRAGでは、外部ストレージとインデックス管理のオーバーヘッドも追加され、通常、取得したエビデンスを生テキストとして追加することで、プリフィルコストとレイテンシが向上する。
H^{2}MTは、セマンティックな階層をオフラインに構築し、ボトムアップのポストオーダーアグリゲーションを通じて各ノードのメモリ埋め込みを計算し、推論時に粗い粒度をルーティングして、無関係なブランチを早期にプルーンする。
LongBench QA (Narrative QA, HotpotQA, QASPER) と2つの構造化された技術文書設定では、H MTは良好な品質効率のトレードオフを実現し、低ピークのGPUメモリとTTFTで競合するROUGE-LとF1を提供する。
関連論文リスト
- HingeMem: Boundary Guided Long-Term Memory with Query Adaptive Retrieval for Scalable Dialogues [12.529136884264092]
HingeMemは、バウンダリトリガーされたハイパーエッジを介して解釈可能なインデックスインターフェースを構築する、バウンダリガイダンス付き長期メモリである。
クエリ適応型検索機構は、(a) textit Whatを検索する: 要素インデックスメモリ上のクエリ条件付きルーティングを決定する。
HingeMemはクエリカテゴリの仕様なしで、強いベースラインに対して約20%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-08T09:07:07Z) - Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT) [2.8350851063316873]
ストリーミングコンテキスト – 推論による重なり合う検索 – は、このレイテンシを軽減することができる。
本稿では,ストリーミング対応LLMサービスシステムStream2LLMについて述べる。
論文 参考訳(メタデータ) (2026-03-29T06:49:12Z) - Panini: Continual Learning in Token Space via Structured Memory [4.979820180013486]
言語モデルは、トレーニングされていないコンテンツを推論するために、ますます使われています。
一般的なアプローチは検索拡張生成(RAG)であり、これは動詞の文書を(チャンクとして)外部に保存し、推論時に関連するサブセットのみを取得する。
本稿では,基本モデルを固定したままで,新たな経験を外部セマンティックメモリ状態に統合することで学習を行う,人間のような非パラメトリック連続学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:58:03Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - Towards Hyper-Efficient RAG Systems in VecDBs: Distributed Parallel Multi-Resolution Vector Search [5.216774377033164]
我々は,VecDBにおけるRAGのための新しい多分解能ベクトルインデックスフレームワークである textbfSemantic Pyramid Indexing (SPI) を提案する。
オフラインチューニングやモデルトレーニングの分離を必要とする既存の階層的手法とは異なり、SPIはドキュメントの埋め込みの上にセマンティックピラミッドを構築し、クエリ毎に最適な解像度レベルを動的に選択する。
FAISSとQdrantバックエンドのプラグインとしてSPIを実装し、MS MARCO、Natural Questions、マルチモーダル検索ベンチマークを含む複数のRAGタスクでSPIを評価する。
論文 参考訳(メタデータ) (2025-11-12T09:31:08Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。