論文の概要: From Pixels and Words to Waves: A Unified Framework for Spectral Dictionary vLLMs
- arxiv url: http://arxiv.org/abs/2506.18943v1
- Date: Sun, 22 Jun 2025 23:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.305429
- Title: From Pixels and Words to Waves: A Unified Framework for Spectral Dictionary vLLMs
- Title(参考訳): Pixel と Words から Waves: Spectral Dictionary vLLMs の統一フレームワーク
- Authors: Andrew Kiruluta, Priscilla Burity,
- Abstract要約: 視覚言語モデル(VLM)は、画像の解釈と記述が可能な単一のアーキテクチャでコンピュータビジョンと自然言語処理を統合する。
この研究は、各画像パッチまたはワードピースを学習可能な周波数原子のスパース結合として表現するスペクトル辞書トークンミキサーを導入することにより、両者を除去する。
試作機は, BLEU-4 39.2, CIDEr 127.5, SPICE 27.0 をMS-COCOキャプションで達成し, VQAv2 の精度は 50.3% である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) unify computer vision and natural language processing in a single architecture capable of interpreting and describing images. Most state-of-the-art systems rely on two computationally intensive components: convolutions in the vision encoder and quadratic self-attention for multimodal fusion. This work removes both by introducing a spectral dictionary token mixer, which represents each image patch or wordpiece as a sparse combination of learnable frequency atoms. Our 1.1B-parameter prototype, SDict-VLM, achieves BLEU-4 of 39.2, CIDEr of 127.5, and SPICE of 27.0 on MS-COCO captioning, along with 50.3 percent accuracy on VQAv2. These results close approximately 85 percent of the performance gap to BLIP-2 while using 60 percent fewer parameters, 2.3 times less peak GPU memory, and 2.2 times faster inference than PaLI-3. To our knowledge, this is the first VLM to eliminate both convolutions and self-attention while matching mid-scale transformer baselines. In addition to its O(L log L) complexity, the shared frequency dictionary enables transparent cross-modal alignment and offers a tunable trade-off between accuracy and compute, paving the way for efficient and interpretable VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像の解釈と記述が可能な単一のアーキテクチャでコンピュータビジョンと自然言語処理を統合する。
最先端のシステムの多くは、ビジョンエンコーダの畳み込みと、マルチモーダル融合のための二次的自己アテンションという、2つの計算集約的なコンポーネントに依存している。
この研究は、各画像パッチまたはワードピースを学習可能な周波数原子のスパース結合として表現するスペクトル辞書トークンミキサーを導入することにより、両者を除去する。
我々の1.1BパラメーターのプロトタイプであるSDict-VLMは、39.2のBLEU-4、127.5のCIDEr、MS-COCOキャプションで27.0のSPICE、VQAv2で50.3%の精度を達成した。
これらの結果は、性能ギャップの約85%をBLIP-2に近づけ、パラメータを60%削減し、ピークGPUメモリの2.3倍、PaLI-3の2.2倍高速化した。
我々の知る限り、これは中規模変圧器のベースラインにマッチしながら、畳み込みと自己注意の両方を排除した最初のVLMである。
O(L log L) の複雑さに加えて、共有周波数辞書は透過的なクロスモーダルアライメントを可能にし、精度と計算の間の調整可能なトレードオフを提供し、効率よく解釈可能な VLM を実現する。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation [10.789633983083634]
EOV-Segは、オープン・ボキャブラリ・パノプティ・セグメンテーションのための新しい単一ステージ、共有、効率的、空間認識のフレームワークである。
視覚的アグリゲーションのセマンティック理解を改善するために,Vocabulary-Aware Selection (VAS) モジュールを導入する。
The Two-way Dynamic Embedding Experts (TDEE) was introduced a Two-way Dynamic Embedding Experts (TDEE) to leverage the spatial awareness ability of ViT-based CLIP backbone。
論文 参考訳(メタデータ) (2024-12-11T18:48:20Z) - Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。