Fugu-MT 論文翻訳(概要): VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models

論文の概要: VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models

arxiv url: http://arxiv.org/abs/2406.13362v1
Date: Wed, 19 Jun 2024 09:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 20:22:37.835303
Title: VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
Title（参考訳）: VisualRWKV: ビジュアル言語モデルのためのリカレントニューラルネットワークの探索
Authors: Haowen Hou, Peigen Zeng, Fei Ma, Fei Richard Yu,
Abstract要約: 線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介する。モデリング能力を高めるために,データ依存の再現とサンドイッチプロンプトを提案する。 VisualRWKVは、様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争力がある。
参考スコア（独自算出の注目度）: 10.272476734387977
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Language Models (VLMs) have rapidly progressed with the recent success of large language models. However, there have been few attempts to incorporate efficient linear Recurrent Neural Networks (RNNs) architectures into VLMs. In this study, we introduce VisualRWKV, the first application of a linear RNN model to multimodal learning tasks, leveraging the pre-trained RWKV language model. We propose a data-dependent recurrence and sandwich prompts to enhance our modeling capabilities, along with a 2D image scanning mechanism to enrich the processing of visual sequences. Extensive experiments demonstrate that VisualRWKV achieves competitive performance compared to Transformer-based models like LLaVA-1.5 on various benchmarks. To facilitate further research and analysis, we have made the checkpoints and the associated code publicly accessible at the following GitHub repository: \href{https://github.com/howard-hou/VisualRWKV}{https://github.com/howard-hou/VisualRWKV}.
Abstract（参考訳）: ビジュアル言語モデル(VLM)は、近年の大規模言語モデルの成功によって急速に進歩している。しかしながら、効率的な線形リカレントニューラルネットワーク(RNN)アーキテクチャをVLMに組み込む試みはほとんどない。本研究では,線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介し,事前学習されたRWKV言語モデルを活用する。本稿では,視覚的シーケンスの処理を充実させる2次元画像スキャン機構とともに,データ依存の再現性とサンドイッチプロンプトを提案する。大規模な実験により、VisualRWKVは様々なベンチマークで、LLaVA-1.5のようなトランスフォーマーベースのモデルと比較して、競争力を発揮することが示された。さらなる調査と分析を容易にするため、以下のGitHubリポジトリでチェックポイントと関連するコードを公開しました。

関連論文リスト

Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文参考訳（メタデータ） (2025-07-27T08:47:42Z)
R1-Track: Direct Application of MLLMs to Visual Object Tracking via Reinforcement Learning [5.59181512260003]
単一のオブジェクト追跡は、その後のビデオフレームにおけるターゲットのスケールを連続的にローカライズし、推定することを目的としている。 Qwen2.5-VLはイメージペア間のテンプレートマッチングに苦労している。グループ相対政策最適化(GRPO)強化学習法を用いてQwen2.5-VLを微調整した。結果として得られたR1-Trackは、GOT-10kベンチマークで顕著な性能を達成した。
論文参考訳（メタデータ） (2025-06-27T07:41:15Z)
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Evaluating Cell Type Inference in Vision Language Models Under Varying Visual Context [0.16385815610837165]
視覚言語モデル(VLM)は大規模言語モデル(LLM)とともに急速に進歩している。本研究は,GPT-4.1 や Gemini 2.5 Pro などの卓越したVLMの病理組織像分類機能について検討した。
論文参考訳（メタデータ） (2025-06-15T01:50:16Z)
Renaissance: Investigating the Pretraining of Vision-Language Encoders [0.6445605125467574]
メタ分析により,視覚言語エンコーダの事前学習に関するいくつかの疑問に答えようとしている。最初の実験では、事前学習中に視覚言語モデルの大部分を凍結することにより、ダウンストリームのパフォーマンスを低下させることなく、大幅な計算を省くことができることを示した。第2の実験では,VL変換器が視覚モデルとテキストモデルにどのような効果をもたらすかを検討した。
論文参考訳（メタデータ） (2024-11-11T01:44:54Z)
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文参考訳（メタデータ） (2024-09-18T17:59:32Z)
When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文参考訳（メタデータ） (2024-09-03T12:03:45Z)
Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration [0.40964539027092917]
本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
論文参考訳（メタデータ） (2024-07-30T22:32:50Z)
Pretrained Visual Representations in Reinforcement Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)をスクラッチから学習する視覚強化学習アルゴリズムの性能と、事前学習された視覚表現(PVR)を利用するものとの比較を行う。 ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムの評価を行った。
論文参考訳（メタデータ） (2024-07-24T12:53:26Z)
RWKV-CLIP: A Robust Vision-Language Representation Learner [31.501759213619646]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に改善した。本稿では,Large Language Models(LLM)を利用して,Webベースのテキスト,合成キャプション,検出タグからコンテンツを合成・洗練する多種多様な記述生成フレームワークを提案する。 RWKV-CLIPは,変換器の効果的な並列学習とRNNの効率的な推論を組み合わせた,最初のRWKV駆動型視覚言語表現学習モデルである。
論文参考訳（メタデータ） (2024-06-11T06:10:46Z)
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文参考訳（メタデータ） (2024-04-25T19:29:55Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [36.97507697713224]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文参考訳（メタデータ） (2024-04-08T22:20:59Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文参考訳（メタデータ） (2024-01-23T01:25:00Z)
Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-19T15:22:06Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)
Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文参考訳（メタデータ） (2021-08-20T03:57:58Z)
WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文参考訳（メタデータ） (2021-03-11T09:39:49Z)
Rethinking Recurrent Neural Networks and Other Improvements for Image Classification [1.5990720051907859]
画像認識モデルの設計において,RNNを付加層として統合することを提案する。また、複数のモデルを用いて専門家による予測を生成するエンド・ツー・エンドのマルチモデルアンサンブルも開発している。私たちのモデルは、Surreyデータセットに新しいレコードを設定します。
論文参考訳（メタデータ） (2020-07-30T00:40:50Z)
A Convolutional Deep Markov Model for Unsupervised Speech Representation Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文参考訳（メタデータ） (2020-06-03T21:50:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。