論文の概要: CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2507.02957v1
- Date: Mon, 30 Jun 2025 02:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.470326
- Title: CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning
- Title(参考訳): CS-VLM:効率的な視覚言語表現学習のための圧縮センシング注意
- Authors: Andrew Kiruluta, Preethi Raju, Priscilla Burity,
- Abstract要約: 本稿では,圧縮センシングのレンズによる注意計算を再現する新しいアーキテクチャであるCompressed Sensing Attention Transformer (CSAT)を紹介する。
CSATは、特に時間的冗長度が高いビデオや、モーダルな接地度が低い言語において、視覚的およびテキスト的表現が本質的に圧縮可能であることを生かしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (vLLMs) have emerged as powerful architectures for joint reasoning over visual and textual inputs, enabling breakthroughs in image captioning, cross modal retrieval, and multimodal dialogue. However, as these models scale to longer video sequences and richer language descriptions, the quadratic complexity of the standard attention mechanism presents a fundamental computational bottleneck. This challenge is exacerbated in vLLMs, where attention must be computed not only within modalities but also across them, leading to prohibitive memory and latency costs. In this work, we introduce the Compressed Sensing Attention Transformer (CSAT), a novel architecture that reimagines attention computation through the lens of compressed sensing. By projecting high dimensional key and value representations into a lower-dimensional subspace via random measurement matrices and reconstructing the attention outputs using sparse recovery algorithms, CSAT significantly reduces attention complexity while maintaining semantic fidelity. Applied to vLLMs, CSAT exploits the inherent compressibility of both visual and textual representations especially evident in video, where temporal redundancy is high, and in language, where cross-modal grounding is often sparse. In contrast to LLMs, which must often model entangled symbolic dependencies, vLLMs benefit from structured sparsity in alignment and scene composition, making them particularly well-suited to compressed attention. We provide a formal mathematical treatment of CSAT, demonstrate its integration into vision language pipelines, and validate its performance on standard benchmarks, highlighting its promise as a scalable, interpretable, and resource efficient solution for next generation multimodal transformers.
- Abstract(参考訳): 視覚言語モデル(vLLM)は視覚とテキストの入力に対する共同推論のための強力なアーキテクチャとして登場し、画像キャプション、クロスモーダル検索、マルチモーダル対話のブレークスルーを可能にしている。
しかしながら、これらのモデルがより長いビデオシーケンスやよりリッチな言語記述にスケールするにつれて、標準的な注意機構の2次複雑さは、基本的な計算ボトルネックとなる。
この課題はvLLMでさらに悪化しており、モダリティ内だけでなく、それら全体でも注意を払わなければならないため、メモリとレイテンシの制限が課せられる。
本研究では,圧縮センシングのレンズによる注意計算を再現する新しいアーキテクチャであるCompressed Sensing Attention Transformer (CSAT)を紹介する。
高次元キーと値表現をランダムな測定行列を介して低次元部分空間に投影し、スパースリカバリアルゴリズムを用いてアテンション出力を再構成することにより、CSATは意味的忠実性を維持しながら注意の複雑さを著しく低減する。
vLLM に適用された CSAT は、特にビデオにおいて時間的冗長度が高い場合や、モーダルグラウンドが低い場合の言語において、視覚的表現とテキスト表現の両方が本質的に圧縮可能であることを生かしている。
しばしば絡み合ったシンボリック依存関係をモデル化しなければならないLLMとは対照的に、vLLMはアライメントやシーン構成において構造化された空間性から恩恵を受けており、圧縮された注意に特に適している。
我々は、CSATの正式な数学的処理を提供し、そのビジョン言語パイプラインへの統合を実証し、その性能を標準ベンチマークで検証し、次世代マルチモーダルトランスフォーマーのスケーラブルで解釈可能でリソース効率の良いソリューションとしての可能性を強調した。
関連論文リスト
- Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Towards Context-aware Convolutional Network for Image Restoration [5.319939908085759]
トランスフォーマーベースのアルゴリズムと注意に基づく畳み込みニューラルネットワーク(CNN)は、いくつかの画像復元タスクにおいて有望な結果を示している。
既存のIR用畳み込み残基は、入力を高次元および非線形の特徴空間にマッピングする限られた能力に遭遇する。
本研究では,文脈認識型畳み込みネットワーク(CCNet)を提案する。
論文 参考訳(メタデータ) (2024-12-15T01:29:33Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。