Fugu-MT 論文翻訳(概要): From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

論文の概要: From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

arxiv url: http://arxiv.org/abs/2603.01455v1
Date: Mon, 02 Mar 2026 05:12:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.688298
Title: From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents
Title（参考訳）: VerbatimからGistへ:長距離ビデオエージェントのためのセマンティック・インフォメーション・ボトルネックによるピラミッド型マルチモーダルメモリの蒸留
Authors: Niu Lian, Yuting Wang, Hanshu Yao, Jinpeng Wang, Bin Chen, Yaowei Wang, Min Zhang, Shu-Tao Xia,
Abstract要約: 本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。 MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
参考スコア（独自算出の注目度）: 78.30630000529133
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While multimodal large language models have demonstrated impressive short-term reasoning, they struggle with long-horizon video understanding due to limited context windows and static memory mechanisms that fail to mirror human cognitive efficiency. Existing paradigms typically fall into two extremes: vision-centric methods that incur high latency and redundancy through dense visual accumulation, or text-centric approaches that suffer from detail loss and hallucination via aggressive captioning. To bridge this gap, we propose MM-Mem, a pyramidal multimodal memory architecture grounded in Fuzzy-Trace Theory. MM-Mem structures memory hierarchically into a Sensory Buffer, Episodic Stream, and Symbolic Schema, enabling the progressive distillation of fine-grained perceptual traces (verbatim) into high-level semantic schemas (gist). Furthermore, to govern the dynamic construction of memory, we derive a Semantic Information Bottleneck objective and introduce SIB-GRPO to optimize the trade-off between memory compression and task-relevant information retention. In inference, we design an entropy-driven top-down memory retrieval strategy, which first tries with the abstract Symbolic Schema and progressively "drills down" to the Sensory Buffer and Episodic Stream under high uncertainty. Extensive experiments across 4 benchmarks confirm the effectiveness of MM-Mem on both offline and streaming tasks, demonstrating robust generalization and validating the effectiveness of cognition-inspired memory organization. Code is available at https://github.com/EliSpectre/MM-Mem.
Abstract（参考訳）: マルチモーダルな大規模言語モデルは、印象的な短期的推論を実証しているが、コンテキストウィンドウの制限と人間の認知効率を反映できない静的記憶機構のために、長期的なビデオ理解に苦慮している。既存のパラダイムは、一般的に2つの極端に分類される: 視覚中心の手法は、密集した視覚的蓄積によって高い遅延と冗長性をもたらす。このギャップを埋めるため,ファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。 MM-Memは、メモリを階層的にSensory Buffer, Episodic Stream, Symbolic Schemaに構造し、微細な知覚的トレース(verbatim)を高レベルのセマンティックスキーマ(gist)に段階的に蒸留することができる。さらに, メモリの動的構成を管理するために, セマンティック・インフォメーション・ボトルネックの目的を導出し, SIB-GRPOを導入し, メモリ圧縮とタスク関連情報保持のトレードオフを最適化する。 Inference, we design an entropy-driven top-down memory search strategy, which is try with the abstract Symbolic Schema and progressively "drills down" to the Sensory Buffer and Episodic Stream under high uncertainty。 4つのベンチマークにわたる大規模な実験により、MM-Memがオフラインとストリーミングの両方のタスクで有効であることを確認し、堅牢な一般化を実証し、認知にインスパイアされた記憶組織の有効性を検証する。コードはhttps://github.com/EliSpectre/MM-Mem.comで入手できる。

関連論文リスト

MemFly: On-the-Fly Memory Optimization via Information Bottleneck [35.420309099411874]
長期記憶により、大きな言語モデルエージェントは歴史的相互作用を通じて複雑なタスクに取り組むことができる。既存のフレームワークは、冗長な情報を効率よく圧縮し、下流タスクの正確な検索を維持するというジレンマに遭遇する。 MemFlyは、LLMのオンザフライメモリ進化を促進する情報ボトルネックの原則に基づくフレームワークである。 MemFlyは、メモリコヒーレンス、応答忠実度、精度において最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2026-02-08T09:37:25Z)
MetaMem: Evolving Meta-Memory for Knowledge Utilization through Self-Reflective Symbolic Optimization [57.17751568928966]
自己進化型メタメモリでメモリシステムを拡張するフレームワークであるMetaMemを提案する。メタメモリ最適化の間、MetaMemは異なるタスク間で伝達可能な知識利用経験を反復的に蒸留する。大規模な実験ではMetaMemの有効性が示され、これは強いベースラインを3.6%以上上回っている。
論文参考訳（メタデータ） (2026-01-27T04:46:23Z)
HiMem: Hierarchical Long-Term Memory for LLM Long-Horizon Agents [3.9396865837159822]
HiMemは、長距離対話のための階層的長期記憶フレームワークである。メモリ構築、検索、持続的なインタラクション中の動的更新をサポートする。その結果、HiMemは、精度、一貫性、長期的な推論において、代表的ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-01-10T01:26:01Z)
MemVerse: Multimodal Memory for Lifelong Learning Agents [35.218549149012844]
我々は,モデルに依存しないプラグアンドプレイメモリフレームワークであるMemVerseを紹介した。 MemVerseは階層的検索ベースのメモリで高速パラメトリックリコールを行う。スケーラブルで適応的なマルチモーダルインテリジェンスを実現する。
論文参考訳（メタデータ） (2025-12-03T10:06:14Z)
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。 WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-12-02T05:14:52Z)
Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文参考訳（メタデータ） (2025-11-26T18:55:08Z)
CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文参考訳（メタデータ） (2025-10-07T02:16:30Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
Memory-Augmented Deep Unfolding Network for Compressive Sensing [7.123516761504439]
メモリ拡張Deep Unfolding Network (MADUN) は、切り捨てられた最適化手法をディープニューラルネットワークにマッピングするために提案されている。我々はMADUNが既存の最先端手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2021-10-19T07:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。