論文の概要: MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
- arxiv url: http://arxiv.org/abs/2601.21468v1
- Date: Thu, 29 Jan 2026 09:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.71106
- Title: MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
- Title(参考訳): MemOCR: 効率的なロングホライゾン推論のためのレイアウト対応ビジュアルメモリ
- Authors: Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang,
- Abstract要約: 本稿では,コンテキスト予算の厳しい長期推論を改善するマルチモーダルメモリエージェントであるMemOCRを紹介する。
MemOCRは、視覚的レイアウトを通じて適応的な情報密度でメモリ空間を割り当てる。
我々は,多種多様な圧縮レベルにエージェントを露出する予算対応目標の下で,強化学習でMemOCRを訓練する。
- 参考スコア(独自算出の注目度): 36.52465672754168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon agentic reasoning necessitates effectively compressing growing interaction histories into a limited context window. Most existing memory systems serialize history as text, where token-level cost is uniform and scales linearly with length, often spending scarce budget on low-value details. To this end, we introduce MemOCR, a multimodal memory agent that improves long-horizon reasoning under tight context budgets by allocating memory space with adaptive information density through visual layout. Concretely, MemOCR maintains a structured rich-text memory (e.g., headings, highlights) and renders it into an image that the agent consults for memory access, visually prioritizing crucial evidence while aggressively compressing auxiliary details. To ensure robustness across varying memory budgets, we train MemOCR with reinforcement learning under budget-aware objectives that expose the agent to diverse compression levels. Across long-context multi-hop and single-hop question-answering benchmarks, MemOCR outperforms strong text-based baselines and achieves more effective context utilization under extreme budgets.
- Abstract(参考訳): ロングホライゾンのエージェント推論は、成長する相互作用履歴を限られたコンテキストウィンドウに効果的に圧縮する必要がある。
既存のメモリシステムは歴史をテキストとしてシリアライズし、トークンレベルのコストは均一であり、長さとともに線形にスケールする。
この目的のために,視覚的レイアウトによる適応的な情報密度でメモリ空間を割り当てることにより,コンテキスト予算の厳密なロングホライズン推論を改善するマルチモーダルメモリエージェントMemOCRを導入する。
具体的には、MemOCRは構造化されたリッチテキストメモリ(例えば、見出し、ハイライト)を維持し、エージェントがメモリアクセスのために相談するイメージにレンダリングし、補助的な詳細を積極的に圧縮しながら重要な証拠を視覚的に優先順位付けする。
各種メモリ予算の堅牢性を確保するため,多種多様な圧縮レベルにエージェントを露出する予算対応目標の下で,強化学習を用いてMemOCRを訓練する。
長いコンテキストのマルチホップとシングルホップの質問応答ベンチマークを通じて、MemOCRは強いテキストベースのベースラインを上回り、極端な予算下でより効果的なコンテキスト利用を実現する。
関連論文リスト
- AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - TeleMem: Building Long-Term and Multimodal Memory for Agentic AI [43.36544433800511]
大規模言語モデル(LLM)は、多くのNLPタスクにおいて優れているが、対話履歴の拡張に対する注意が限られているため、長期的な相互作用を維持するのに苦労する。
本稿では,コヒーレントなユーザプロファイルを物語動的抽出により維持する,長期・マルチモーダル統合メモリシステムTeleMemを提案する。
TeleMemは最先端のMem0ベースラインを19%上回り、トークンは43%減り、ZH-4Oの長期ロールプレイゲームベンチマークでは2.1倍高速化された。
論文 参考訳(メタデータ) (2025-12-12T11:24:52Z) - BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models [0.0]
BudgetMemは、すべてを記憶するのではなく、何を記憶すべきかを学ぶ、新しいメモリ拡張アーキテクチャである。
本システムでは,厳格な予算制約下での記憶にどのような価値があるかを決定するために,選択的メモリポリシーと特徴に基づくサリエンススコアを併用する。
我々の研究は、高度な言語理解能力へのアクセスを民主化し、控えめなハードウェア上で有能な長期コンテキストシステムをデプロイするための実践的な経路を提供する。
論文 参考訳(メタデータ) (2025-11-07T01:49:22Z) - SGMem: Sentence Graph Memory for Long-Term Conversational Agents [14.89396085814917]
チャンク単位内の文レベルグラフとして対話を表現するSGMem(Sentence Graph Memory)を紹介する。
SGMem は, 長期会話型質問応答において, 精度を向上し, 高いベースラインを向上することを示す。
論文 参考訳(メタデータ) (2025-09-25T14:21:44Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。