論文の概要: Looping Back to Move Forward: Recursive Transformers for Efficient and Flexible Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2602.09080v1
- Date: Mon, 09 Feb 2026 17:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.182029
- Title: Looping Back to Move Forward: Recursive Transformers for Efficient and Flexible Large Multimodal Models
- Title(参考訳): ループをフォワードに戻す: 効率的かつフレキシブルな大規模マルチモーダルモデルのための再帰変換器
- Authors: Ruihan Xu, Yuting Gao, Lan Wang, Jianing Li, Weihao Chen, Qingpei Guo, Ming Yang, Shiliang Zhang,
- Abstract要約: 大規模マルチモーダルモデル (LMM) は視覚言語計算タスクにおいて顕著な成功を収めた。
しかし、その膨大なパラメータ数は、トレーニングと推論の両方で利用されていないことが多い。
LMMに適した再帰トランスフォーマーアーキテクチャであるRecursiveVLMを提案する。
- 参考スコア(独自算出の注目度): 63.47909317137073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Multimodal Models (LMMs) have achieved remarkable success in vision-language tasks, yet their vast parameter counts are often underutilized during both training and inference. In this work, we embrace the idea of looping back to move forward: reusing model parameters through recursive refinement to extract stronger multimodal representations without increasing model size. We propose RecursiveVLM, a recursive Transformer architecture tailored for LMMs. Two key innovations enable effective looping: (i) a Recursive Connector that aligns features across recursion steps by fusing intermediate-layer hidden states and applying modality-specific projections, respecting the distinct statistical structures of vision and language tokens; (ii) a Monotonic Recursion Loss that supervises every step and guarantees performance improves monotonically with recursion depth. This design transforms recursion into an on-demand refinement mechanism: delivering strong results with few loops on resource-constrained devices and progressively improving outputs when more computation resources are available. Experiments show consistent gains of +3% over standard Transformers and +7% over vanilla recursive baselines, demonstrating that strategic looping is a powerful path toward efficient, deployment-adaptive LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて顕著な成功を収めてきたが、その膨大なパラメータ数は、トレーニングと推論の両方で利用されていないことが多い。
本研究では, モデルサイズを増大させることなく, より強力なマルチモーダル表現を抽出するために再帰的洗練されたモデルパラメータを再利用する。
LMMに適した再帰トランスフォーマーアーキテクチャであるRecursiveVLMを提案する。
2つの重要なイノベーションは、効果的なループを可能にする。
一 中間層隠蔽状態に融合し、かつ、視覚及び言語トークンの異なる統計構造を尊重して、モダリティ固有の投影を適用することにより、再帰ステップにまたがる特徴を整合させる再帰接続体
(ii)全てのステップを監督し、性能を保証するモノトニック再帰損失は、再帰深さで単調に改善する。
この設計は再帰をオンデマンドのリファインメント機構に変換し、リソース制限されたデバイスにループをほとんど持たずに強力な結果を提供し、より多くの計算リソースが利用可能になったときに出力を漸進的に改善する。
実験では、標準的なトランスフォーマーよりも+3%、バニラ再帰的ベースラインよりも+7%が一貫した増加を示し、戦略的ループが効率的なデプロイメント適応型LMMへの強力な道であることを示した。
関連論文リスト
- MeSH: Memory-as-State-Highways for Recursive Transformers [23.995570647573484]
パラメータが少ない再帰モデルは、マッチした計算の下では非再帰的モデルよりも遅れることが多い。
隠れた状態を探索することで、このパフォーマンスギャップを2つの主要なボトルネックにトレースします。
メモリ管理を明示的なメモリバッファに外部化するメモリ・アズ・ステート・ハイウェイ方式を導入する。
論文 参考訳(メタデータ) (2025-10-09T03:23:38Z) - Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [61.67090981767583]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、メモリフットプリントをさらに削減するために、KVペアを最初の再帰から再利用するKV共有変種を提案する。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。
我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文 参考訳(メタデータ) (2023-08-03T01:41:34Z) - Sliced Recursive Transformer [23.899076070924153]
視覚変換器における再帰操作は、追加パラメータを伴わずにパラメータ利用を改善することができる。
我々のモデル Sliced Recursive Transformer (SReT) は、効率的な視覚変換のための様々な設計と互換性がある。
論文 参考訳(メタデータ) (2021-11-09T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。