論文の概要: VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
- arxiv url: http://arxiv.org/abs/2406.13362v3
- Date: Thu, 19 Dec 2024 05:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:57.116773
- Title: VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
- Title(参考訳): VisualRWKV: ビジュアル言語モデルのためのリカレントニューラルネットワークの探索
- Authors: Haowen Hou, Peigen Zeng, Fei Ma, Fei Richard Yu,
- Abstract要約: 線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介する。
モデリング能力を高めるために,データ依存の再現とサンドイッチプロンプトを提案する。
VisualRWKVは、様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争力がある。
- 参考スコア(独自算出の注目度): 10.272476734387977
- License:
- Abstract: Visual Language Models (VLMs) have rapidly progressed with the recent success of large language models. However, there have been few attempts to incorporate efficient linear Recurrent Neural Networks (RNNs) architectures into VLMs. In this study, we introduce VisualRWKV, the first application of a linear RNN model to multimodal learning tasks, leveraging the pre-trained RWKV language model. We propose a data-dependent recurrence and sandwich prompts to enhance our modeling capabilities, along with a 2D image scanning mechanism to enrich the processing of visual sequences. Extensive experiments demonstrate that VisualRWKV achieves competitive performance compared to Transformer-based models like LLaVA-1.5 on various benchmarks. Compared to LLaVA-1.5, VisualRWKV has a speed advantage of 3.98 times and can save 54% of GPU memory when reaching an inference length of 24K tokens. To facilitate further research and analysis, we have made the checkpoints and the associated code publicly accessible at the following GitHub repository: see https://github.com/howard-hou/VisualRWKV.
- Abstract(参考訳): ビジュアル言語モデル(VLM)は、近年の大規模言語モデルの成功によって急速に進歩している。
しかしながら、効率的な線形リカレントニューラルネットワーク(RNN)アーキテクチャをVLMに組み込む試みはほとんどない。
本研究では,線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介し,事前学習されたRWKV言語モデルを活用する。
本稿では,視覚的シーケンスの処理を充実させる2次元画像スキャン機構とともに,データ依存の再現性とサンドイッチプロンプトを提案する。
大規模な実験により、VisualRWKVは様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争性能が向上することが示された。
LLaVA-1.5と比較して、VisualRWKVは3.98倍の速度で、24Kトークンの推論長に達すると54%のGPUメモリを節約できる。
さらなる調査と分析を容易にするため、以下のGitHubリポジトリでチェックポイントと関連するコードを公開しました。
関連論文リスト
- When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - Pretrained Visual Representations in Reinforcement Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)をスクラッチから学習する視覚強化学習アルゴリズムの性能と、事前学習された視覚表現(PVR)を利用するものとの比較を行う。
ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-07-24T12:53:26Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [36.97507697713224]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。
アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。
我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文 参考訳(メタデータ) (2024-04-08T22:20:59Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Rethinking Recurrent Neural Networks and Other Improvements for Image
Classification [1.5990720051907859]
画像認識モデルの設計において,RNNを付加層として統合することを提案する。
また、複数のモデルを用いて専門家による予測を生成するエンド・ツー・エンドのマルチモデルアンサンブルも開発している。
私たちのモデルは、Surreyデータセットに新しいレコードを設定します。
論文 参考訳(メタデータ) (2020-07-30T00:40:50Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。