論文の概要: Towards General Continuous Memory for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.17670v1
- Date: Fri, 23 May 2025 09:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.967311
- Title: Towards General Continuous Memory for Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルのための汎用的連続記憶に向けて
- Authors: Wenyi Wu, Zixuan Song, Kun Zhou, Yifei Shao, Zhiting Hu, Biwei Huang,
- Abstract要約: 言語モデル(LM)とその拡張である視覚言語モデル(VLM)は、様々なタスクで顕著なパフォーマンスを実現している。
彼らはまだ、マルチモーダルまたはマルチリンガルな実世界の知識を必要とする複雑な推論タスクに苦慮している。
本稿では,マルチモーダルおよび多言語知識を表現するために,連続記憶(continuous memory)という高密度埋め込みのコンパクトな集合を提案する。
我々のアプローチであるCoMEMは、VLMの本来の能力を利用して、任意のマルチモーダルおよび多言語知識をたった8つの連続的な埋め込みにエンコードする。
- 参考スコア(独自算出の注目度): 39.95345066340921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) and their extension, vision-language models (VLMs), have achieved remarkable performance across various tasks. However, they still struggle with complex reasoning tasks that require multimodal or multilingual real-world knowledge. To support such capabilities, an external memory system that can efficiently provide relevant multimodal information is essential. Existing approaches generally concatenate image and text tokens into a long sequence as memory, which, however, may drastically increase context length and even degrade performance. In contrast, we propose using continuous memory, a compact set of dense embeddings to more effectively and efficiently represent multimodal and multilingual knowledge. Our key insight is that a VLM can serve as its own continuous memory encoder. We empirically show that this design improves performance on complex multimodal reasoning tasks. Building on this, we introduce a data-efficient and parameter-efficient method to fine-tune the VLM into a memory encoder, requiring only 1.2% of the model's parameters and a small corpus of 15.6K self-synthesized samples. Our approach CoMEM utilizes VLM's original capabilities to encode arbitrary multimodal and multilingual knowledge into just 8 continuous embeddings. Since the inference-time VLM remains frozen, our memory module is plug-and-play and can be flexibly integrated as needed. Extensive experiments across eight multimodal reasoning benchmarks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 言語モデル(LM)とその拡張である視覚言語モデル(VLM)は、様々なタスクで顕著なパフォーマンスを実現している。
しかし、それでもマルチモーダルまたはマルチリンガルな実世界の知識を必要とする複雑な推論タスクに苦戦している。
このような機能をサポートするために、関連するマルチモーダル情報を効率的に提供できる外部メモリシステムが不可欠である。
既存のアプローチは通常、画像とテキストトークンをメモリとして長いシーケンスにまとめる。
対照的に、マルチモーダルおよび多言語知識をより効果的に表現するために、連続記憶(continuous memory)という、高密度な埋め込みのコンパクトな集合を提案する。
私たちの重要な洞察は、VLMが自身の連続メモリエンコーダとして機能できるということです。
この設計が複雑なマルチモーダル推論タスクの性能を向上させることを実証的に示す。
これに基づいて,VLMをメモリエンコーダに微調整するデータ効率およびパラメータ効率の手法を導入し,モデルのパラメータの1.2%と15.6Kの自己合成サンプルの小さなコーパスを必要とする。
我々のアプローチであるCoMEMは、VLMの本来の能力を利用して、任意のマルチモーダルおよび多言語知識をたった8つの連続的な埋め込みにエンコードする。
推論時のVLMは凍結状態のままなので、メモリモジュールはプラグイン・アンド・プレイであり、必要に応じて柔軟に統合できます。
8つのマルチモーダル推論ベンチマークの大規模な実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。
MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。
市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文 参考訳(メタデータ) (2024-12-02T09:02:28Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。