論文の概要: ModRWKV: Transformer Multimodality in Linear Time
- arxiv url: http://arxiv.org/abs/2505.14505v1
- Date: Tue, 20 May 2025 15:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.4641
- Title: ModRWKV: Transformer Multimodality in Linear Time
- Title(参考訳): ModRWKV: 線形時間における変圧器の多モード性
- Authors: Jiale Kang, Ziyin Yue, Qingyu Yin, Jiang Rui, Weile Li, Zening Lu, Zhouran Ji,
- Abstract要約: この研究は、マルチモーダルコンテキストにおけるモダンなRNNアーキテクチャの機能について考察する。
本稿では,RWKV7アーキテクチャ上に構築されたModRWKV-aデカップリング型マルチモーダルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.022857751402095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, most multimodal studies are based on large language models (LLMs) with quadratic-complexity Transformer architectures. While linear models like RNNs enjoy low inference costs, their application has been largely limited to the text-only modality. This work explores the capabilities of modern RNN architectures in multimodal contexts. We propose ModRWKV-a decoupled multimodal framework built upon the RWKV7 architecture as its LLM backbone-which achieves multi-source information fusion through dynamically adaptable heterogeneous modality encoders. We designed the multimodal modules in ModRWKV with an extremely lightweight architecture and, through extensive experiments, identified a configuration that achieves an optimal balance between performance and computational efficiency. ModRWKV leverages the pretrained weights of the RWKV7 LLM for initialization, which significantly accelerates multimodal training. Comparative experiments with different pretrained checkpoints further demonstrate that such initialization plays a crucial role in enhancing the model's ability to understand multimodal signals. Supported by extensive experiments, we conclude that modern RNN architectures present a viable alternative to Transformers in the domain of multimodal large language models (MLLMs). Furthermore, we identify the optimal configuration of the ModRWKV architecture through systematic exploration.
- Abstract(参考訳): 現在、ほとんどのマルチモーダル研究は2次複雑トランスフォーマーアーキテクチャを持つ大規模言語モデル(LLM)に基づいている。
RNNのような線形モデルは推論コストが低いが、その応用はテキストのみのモダリティに限られている。
この研究は、マルチモーダルコンテキストにおけるモダンなRNNアーキテクチャの機能について考察する。
我々は,RWKV7アーキテクチャ上に構築されたModRWKV-a分散マルチモーダルフレームワークを,動的に適応可能な不均一なモダリティエンコーダによるマルチソース情報融合を実現するLLMバックボーンとして提案する。
我々はModRWKVのマルチモーダルモジュールを極めて軽量なアーキテクチャで設計し、広範な実験により性能と計算効率の最適バランスを実現する構成を同定した。
ModRWKVは、RWKV7 LLMの事前訓練された重量を利用して初期化し、マルチモーダルトレーニングを著しく加速する。
異なる事前訓練されたチェックポイントの比較実験は、そのような初期化がモデルがマルチモーダル信号を理解する能力を高める上で重要な役割を担っていることをさらに示している。
大規模な実験により,現代のRNNアーキテクチャはマルチモーダル大言語モデル(MLLM)の領域において,トランスフォーマーの代替となる可能性が示唆された。
さらに,系統的な探索を通じてModRWKVアーキテクチャの最適構成を特定する。
関連論文リスト
- Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - A Markov Random Field Multi-Modal Variational AutoEncoder [1.2233362977312945]
この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。
我々のアプローチは、これらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。
論文 参考訳(メタデータ) (2024-08-18T19:27:30Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。