論文の概要: LoopViT: Scaling Visual ARC with Looped Transformers
- arxiv url: http://arxiv.org/abs/2602.02156v1
- Date: Mon, 02 Feb 2026 14:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.209764
- Title: LoopViT: Scaling Visual ARC with Looped Transformers
- Title(参考訳): LoopViT: ループ変換器によるVisual ARCのスケーリング
- Authors: Wen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang,
- Abstract要約: 重み付け繰り返しによりモデル容量から深度を分離するLoop-ViTを提案する。
Loop-ViTは、局所的な畳み込みとグローバルな関心を組み合わせた、重み付けされたハイブリッドブロックを反復して、潜在的な思考の連鎖を形成する。
ARC-AGI-1ベンチマークの実証的な結果は、この視点を検証している。
- 参考スコア(独自算出の注目度): 14.9105267508928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.
- Abstract(参考訳): 近年の視覚推論の進歩は、ARC-AGIベンチマークに対処するために視覚変換器を活用している。
しかし、計算深度がパラメータサイズに厳密に結びついているフィードフォワードアーキテクチャは、人間の誘導の反復的アルゴリズム的な性質を捉えるには不十分である。
本研究では,重み付き繰り返しによるモデルキャパシティから深度を分離するLoop-ViTという再帰的アーキテクチャを提案する。
Loop-ViTは、局所的な畳み込みとグローバルな関心を組み合わせた、重み付けされたハイブリッドブロックを反復して、潜在的な思考の連鎖を形成する。
重要なこととして,予測エントロピーに基づくパラメータフリーな動的エクイット機構を導入し,内部状態 ``crystallize' が低不確かさを引き付けると,モデルが推論を停止する。
私たちの18Mモデルは65.8%の精度を達成し、73Mパラメータの大規模なアンサンブルを上回ります。
これらの結果から、適応反復計算は、単にネットワーク幅を増大させるよりも、視覚的推論にはるかに効率的なスケーリング軸を提供することが示された。
コードはhttps://github.com/WenjieShu/LoopViT.comで入手できる。
関連論文リスト
- DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking [51.154226183713405]
本稿では,レイヤ計算を暗黙の思考ステップとして再定義する内的思考変換器を提案する。
ITTは162Mパラメータのみを使用して466Mトランスフォーマーの96.5%のパフォーマンスを達成し、トレーニングデータを43.2%削減し、11のベンチマークでTransformer/Loopの変種を上回るパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-02-19T16:02:23Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers [14.756988176469365]
計算要求の削減と効率の向上のための効果的なアプローチは、ディープニューラルネットワークの不要なコンポーネントを創り出すことである。
これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
論文 参考訳(メタデータ) (2024-08-22T17:35:18Z) - LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre
Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。
繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。
本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文 参考訳(メタデータ) (2024-01-20T01:10:18Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。