論文の概要: Vision Tiny Recursion Model (ViTRM): Parameter-Efficient Image Classification via Recursive State Refinement
- arxiv url: http://arxiv.org/abs/2603.19503v1
- Date: Thu, 19 Mar 2026 22:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.90627
- Title: Vision Tiny Recursion Model (ViTRM): Parameter-Efficient Image Classification via Recursive State Refinement
- Title(参考訳): Vision Tiny Recursion Model (ViTRM):Recursive State Refinementによるパラメータ効率の良い画像分類
- Authors: Ange-Clément Akazan, Abdoulaye Koroko, Verlon Roel Mbingui, Choukouriyah Arinloye, Hassan Fifen, Rose Bandolo,
- Abstract要約: パラメータ効率の高いアーキテクチャである textbfVision Tiny Recursion Model (ViTRM) を導入し、$L$層型ViTエンコーダを1つの小さな$k$層ブロックに置き換える。
最大6倍の価格と84倍のパラメータをそれぞれCNNベースのモデルとViTで使用するにもかかわらず、ViTRMはCIFAR-10とCIFAR-100の競合性能を維持している。
- 参考スコア(独自算出の注目度): 0.5863360388454261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of deep learning in computer vision has been driven by models of increasing scale, from deep Convolutional Neural Networks (CNN) to large Vision Transformers (ViT). While effective, these architectures are parameter-intensive and demand significant computational resources, limiting deployment in resource-constrained environments. Inspired by Tiny Recursive Models (TRM), which show that small recursive networks can solve complex reasoning tasks through iterative state refinement, we introduce the \textbf{Vision Tiny Recursion Model (ViTRM)}: a parameter-efficient architecture that replaces the $L$-layer ViT encoder with a single tiny $k$-layer block ($k{=}3$) applied recursively $N$ times. Despite using up to $6 \times $ and $84 \times$ fewer parameters than CNN based models and ViT respectively, ViTRM maintains competitive performance on CIFAR-10 and CIFAR-100. This demonstrates that recursive computation is a viable, parameter-efficient alternative to architectural depth in vision.
- Abstract(参考訳): コンピュータビジョンにおけるディープラーニングの成功は、深層畳み込みニューラルネットワーク(CNN)から大型ビジョントランスフォーマー(ViT)に至るまで、大規模化のモデルによって推進されている。
有効ではあるが、これらのアーキテクチャはパラメータ集約的であり、リソース制約された環境への展開を制限する重要な計算資源を必要とする。
反復的状態改善により、小さな再帰的ネットワークが複雑な推論タスクを解くことができることを示す Tiny Recursive Models (TRM) に触発されて、$L$層 ViTエンコーダを1つの小さな$k$層ブロック(k{=}3$)で置き換えるパラメータ効率の高いアーキテクチャである \textbf{Vision Tiny Recursion Model (ViTRM) を導入する。
6 \times $と84 \times$はCNNベースのモデルとViTより少ないが、ViTRMはCIFAR-10とCIFAR-100の競合性能を維持している。
このことは、再帰的計算が視覚におけるアーキテクチャの深さの代替として実現可能でパラメータ効率のよいものであることを証明している。
関連論文リスト
- Looping Back to Move Forward: Recursive Transformers for Efficient and Flexible Large Multimodal Models [63.47909317137073]
大規模マルチモーダルモデル (LMM) は視覚言語計算タスクにおいて顕著な成功を収めた。
しかし、その膨大なパラメータ数は、トレーニングと推論の両方で利用されていないことが多い。
LMMに適した再帰トランスフォーマーアーキテクチャであるRecursiveVLMを提案する。
論文 参考訳(メタデータ) (2026-02-09T17:58:23Z) - Preparation of Fractal-Inspired Computational Architectures for Advanced Large Language Model Analysis [50.11146543029802]
FractalNetはフラクタルにインスパイアされた高度な大規模言語モデル解析のための計算アーキテクチャである。
新しいセットアップにはテンプレート駆動ジェネレータ、ランナー、評価フレームワークが含まれており、畳み込み、正規化、アクティベーション、ドロップアウト層の体系的な置換によって、1200以上のニューラルネットワークを生成できる。
本論文は, フラクタル設計を自動建築探査の実用的で資源効率のよい方法として位置づけている。
論文 参考訳(メタデータ) (2025-11-10T17:31:39Z) - Lighter-X: An Efficient and Plug-and-play Strategy for Graph-based Recommendation through Decoupled Propagation [49.865020394064096]
我々は,既存のGNNベースのレコメンデータアーキテクチャとシームレスに統合可能な,効率的かつモジュール化されたフレームワークである textbfLighter-X を提案する。
提案手法は,基本モデルの理論的保証と経験的性能を保ちながら,パラメータサイズと計算複雑性を大幅に低減する。
実験の結果、Lighter-Xはパラメータが大幅に少ないベースラインモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-11T08:33:08Z) - Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [61.67090981767583]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、メモリフットプリントをさらに削減するために、KVペアを最初の再帰から再利用するKV共有変種を提案する。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis [8.10783983193165]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。
本稿では,効率的な画像分類のための新しいRNNアーキテクチャであるVisionGRUを紹介する。
論文 参考訳(メタデータ) (2024-12-24T05:27:11Z) - RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization [8.346566205092433]
軽量畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、パラメータ効率と低レイテンシに好まれる。
本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
論文 参考訳(メタデータ) (2024-06-23T04:11:12Z) - Sliced Recursive Transformer [23.899076070924153]
視覚変換器における再帰操作は、追加パラメータを伴わずにパラメータ利用を改善することができる。
我々のモデル Sliced Recursive Transformer (SReT) は、効率的な視覚変換のための様々な設計と互換性がある。
論文 参考訳(メタデータ) (2021-11-09T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。