論文の概要: VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.11007v1
- Date: Fri, 14 Nov 2025 06:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.462235
- Title: VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
- Title(参考訳): VisMem:Vis-Languageモデルの可能性
- Authors: Xinlei Yu, Chengming Xu, Guibin Zhang, Zhangquan Chen, Yudong Zhang, Yongbo He, Peng-Tao Jiang, Jiangning Zhang, Xiaobin Hu, Shuicheng Yan,
- Abstract要約: VisMemはヴィジュアル・ランゲージ・モデルに動的潜在視覚記憶、微細な知覚保持のための短期モジュール、抽象的セマンティック・コンソリデーションのための長期モジュールを装備するフレームワークである。
我々の実験によると、VisMemはバニラモデルと比較して11.8%の大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 78.88575188716378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of Vision-Language Models (VLMs), their performance on a range of complex visual tasks is often hindered by a "visual processing bottleneck": a propensity to lose grounding in visual evidence and exhibit a deficit in contextualized visual experience during prolonged generation. Drawing inspiration from human cognitive memory theory, which distinguishes short-term visually-dominant memory and long-term semantically-dominant memory, we propose VisMem, a cognitively-aligned framework that equips VLMs with dynamic latent vision memories, a short-term module for fine-grained perceptual retention and a long-term module for abstract semantic consolidation. These memories are seamlessly invoked during inference, allowing VLMs to maintain both perceptual fidelity and semantic consistency across thinking and generation. Extensive experiments across diverse visual benchmarks for understanding, reasoning, and generation reveal that VisMem delivers a significant average performance boost of 11.8% relative to the vanilla model and outperforms all counterparts, establishing a new paradigm for latent-space memory enhancement. The code will be available: https://github.com/YU-deep/VisMem.git.
- Abstract(参考訳): VLM(Vision-Language Models)の顕著な成功にもかかわらず、複雑な視覚タスクにおけるそれらのパフォーマンスは、視覚的証拠の根拠を失う確率や、長期世代における文脈化された視覚経験の欠如といった「視覚的処理ボトルネック」によって妨げられることが多い。
短期視覚優位記憶と長期意味優位記憶を区別した人間の認知記憶理論からインスピレーションを得て,VLMに動的潜在視覚記憶を付与する認知整合型フレームワークであるVisMem,微細な知覚保持のための短期モジュール,抽象的意味統合のための長期モジュールを提案する。
これらの記憶は推論中にシームレスに呼び出され、VLMは知覚的忠実性と思考と生成のセマンティック一貫性の両方を維持することができる。
VisMemはバニラモデルと比較して11.8%の大幅な平均性能向上を実現し、潜在空間メモリ拡張のための新しいパラダイムを確立している。
コードは、https://github.com/YU-deep/VisMem.git.comで入手できる。
関連論文リスト
- Cross-Layer Vision Smoothing: Enhancing Visual Understanding via Sustained Focus on Key Objects in Large Vision-Language Models [13.17978215666921]
LVLM(Large Vision-Language Models)は、画像中の重要なオブジェクトを正確に見つけることができるが、これらのオブジェクトへの注意は非常に短い傾向にある。
キーオブジェクトへの継続的なフォーカスがLVLMの視覚能力を向上させるという仮説に触発され、CLVS(Cross-Layer Vision Smoothing)を提案する。
CLVSは様々な視覚的理解タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-16T09:54:01Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models [26.32657568461926]
マルチモーダルな大言語モデル(MLLM)は幻覚を起こす傾向がある。
MemVRは共通の認知にインスパイアされた新しいデコードパラダイムである。
MemVRは様々なMLLMの幻覚を著しく緩和する。
論文 参考訳(メタデータ) (2024-10-04T16:30:54Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。