論文の概要: Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling
- arxiv url: http://arxiv.org/abs/2409.05395v1
- Date: Mon, 9 Sep 2024 07:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:30:45.221214
- Title: Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling
- Title(参考訳): VLMのシェイキング:視覚・言語モデリングのためのトランスフォーマーと構造化状態空間モデルの比較
- Authors: Georgios Pantazopoulos, Malvina Nikandrou, Alessandro Suglia, Oliver Lemon, Arash Eshghi,
- Abstract要約: 私たちは、Visual Language ModelsのTransformerをMambaに置き換えます。
Mambaは、正しい出力がイメージの要約に依存するタスクで有望なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 41.311126922437666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores replacing Transformers in Visual Language Models (VLMs) with Mamba, a recent structured state space model (SSM) that demonstrates promising performance in sequence modeling. We test models up to 3B parameters under controlled conditions, showing that Mamba-based VLMs outperforms Transformers-based VLMs in captioning, question answering, and reading comprehension. However, we find that Transformers achieve greater performance in visual grounding and the performance gap widens with scale. We explore two hypotheses to explain this phenomenon: 1) the effect of task-agnostic visual encoding on the updates of the hidden states, and 2) the difficulty in performing visual grounding from the perspective of in-context multimodal retrieval. Our results indicate that a task-aware encoding yields minimal performance gains on grounding, however, Transformers significantly outperform Mamba at in-context multimodal retrieval. Overall, Mamba shows promising performance on tasks where the correct output relies on a summary of the image but struggles when retrieval of explicit information from the context is required.
- Abstract(参考訳): 本研究では,最新の構造化状態空間モデル(SSM)であるMambaを用いて,視覚言語モデル(VLM)におけるトランスフォーマーの置き換えについて検討する。
制御条件下で最大3Bパラメータを検証し,マンバベースのVLMがキャプション,質問応答,読解においてトランスフォーマーベースのVLMよりも優れていることを示す。
しかし,トランスフォーマーは視覚的グラウンドリングにおいて高い性能を実現し,性能ギャップが拡大することがわかった。
この現象を説明するために2つの仮説を探求する。
1)隠蔽状態の更新に対するタスク非依存の視覚的エンコーディングの効果,及び
2) 文脈内マルチモーダル検索の観点から視覚的グラウンド化を行うのが困難である。
以上の結果から,タスク認識符号化ではグラウンド化によるパフォーマンス向上が最小であることが示唆されるが,コンテクスト内マルチモーダル検索では,Transformerの方がMambaより有意に優れていた。
全体として、Mambaは、正しい出力がイメージの要約に依存するが、コンテキストから明示的な情報を検索する必要がある場合に苦労するタスクに対して、有望なパフォーマンスを示す。
関連論文リスト
- Mamba Fusion: Learning Actions Through Questioning [12.127052057927182]
ビデオ言語モデル(VLM)は、多様なタスクを一般化し、学習を強化するために言語キューを使用するために不可欠である。
本稿では,長距離依存関係を効率的にキャプチャし,視覚と言語データの共同表現を学習する新しいモデルであるMambaVLを紹介する。
MambaVLは、Epic-Kitchens-100データセット上でのアクション認識における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-17T19:36:37Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Decision Mamba Architectures [1.4255659581428335]
決定マンバアーキテクチャは、様々なタスク領域でトランスフォーマーより優れていることが示されている。
決定マンバ(DM)と階層決定マンバ(HDM)の2つの新しい手法を紹介する。
我々は,ほとんどのタスクにおいて,TransformerモデルよりもMambaモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T17:18:08Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。