論文の概要: CoMemo: LVLMs Need Image Context with Image Memory
- arxiv url: http://arxiv.org/abs/2506.06279v1
- Date: Fri, 06 Jun 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.582656
- Title: CoMemo: LVLMs Need Image Context with Image Memory
- Title(参考訳): CoMemo:LVLMにはイメージメモリを備えたイメージコンテキストが必要です
- Authors: Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai,
- Abstract要約: CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。
2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
- 参考スコア(独自算出の注目度): 51.681858871027345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Vision-Language Models built upon Large Language Models have established aligning visual features with LLM representations as the dominant paradigm. However, inherited LLM architectural designs introduce suboptimal characteristics for multimodal processing. First, LVLMs exhibit a bimodal distribution in attention allocation, leading to the progressive neglect of middle visual content as context expands. Second, conventional positional encoding schemes fail to preserve vital 2D structural relationships when processing dynamic high-resolution images. To address these limitations, we propose CoMemo - a dual-path architecture that combines a Context image path with an image Memory path for visual processing, effectively alleviating visual information neglect. Additionally, we introduce RoPE-DHR, a novel positional encoding mechanism that employs thumbnail-based positional aggregation to maintain 2D spatial awareness while mitigating remote decay in extended sequences. Evaluations across seven benchmarks,including long-context comprehension, multi-image reasoning, and visual question answering, demonstrate CoMemo's superior performance compared to conventional LVLM architectures. Project page is available at https://lalbj.github.io/projects/CoMemo/.
- Abstract(参考訳): 大規模言語モデルに基づく大規模視覚言語モデルの最近の進歩は、LLM表現を支配的パラダイムとする視覚的特徴の整合性を確立している。
しかし、LLMのアーキテクチャ設計は、マルチモーダル処理に最適化的特徴を導入している。
第一に、LVLMは注意割当においてバイモーダルな分布を示し、コンテキストが拡大するにつれて、中間視覚コンテンツは徐々に無視される。
第二に、ダイナミックな高解像度画像を処理する際には、従来の位置符号化方式では重要な2次元構造的関係を保たない。
このような制約に対処するため,視覚処理のためにContextイメージパスと Image Memoryパスを組み合わせたデュアルパスアーキテクチャであるCoMemoを提案する。
さらに, サムネイルをベースとした位置アグリゲーションを用いて, 遠隔減衰を軽減しつつ, 2次元空間認識を維持する新しい位置符号化機構であるRoPE-DHRを導入する。
長いコンテキスト理解、マルチイメージ推論、視覚的質問応答を含む7つのベンチマークによる評価は、従来のLVLMアーキテクチャと比較して、CoMemoの優れた性能を示している。
プロジェクトページはhttps://lalbj.github.io/projects/CoMemo/で公開されている。
関連論文リスト
- Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models [18.02840698188587]
本稿では,CLIPの視覚表現とDINOv2の表現を一致させるカーネルベースの新しい手法を提案する。
画像のみのアライメント微調整は、ゼロショット物体認識、きめ細かい空間的推論において著しく改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:44:43Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。