論文の概要: Foundation Models on a Budget: Approximating Blocks in Large Vision Models
- arxiv url: http://arxiv.org/abs/2410.04941v5
- Date: Tue, 27 May 2025 16:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.035599
- Title: Foundation Models on a Budget: Approximating Blocks in Large Vision Models
- Title(参考訳): 予算に関する基礎モデル:大規模ビジョンモデルにおけるブロックの近似
- Authors: Irene Cannistraci, Simone Antonelli, Emanuele Palumbo, Thomas M. Sutter, Emanuele Rodolà, Bastian Rieck, Julia E. Vogt,
- Abstract要約: Transformer Blocks Approximation (TBA) は、ネットワーク内の類似性を活用して、大きな視覚モデルにおける変圧器ブロックを特定し、近似する新しい手法である。
TBAはこれらのブロックを、モデルの他の部分を再トレーニングしたり微調整したりすることなく、軽量でクローズドな変換で置き換える。
複数のデータセットにまたがる広範囲な実験を通して,TBAの有効性と一般化性を検証する。
- 参考スコア(独自算出の注目度): 32.686851504117314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Models have shown impressive performance in various tasks and domains, yet they require massive computational resources, raising concerns about accessibility and sustainability. Previous attempts to reduce foundation model size fall short of fully addressing the problem, as they end up increasing computational load through additional training steps. Recent works reveal that deep neural networks exhibit internal representation similarities. While inter-network similarities have enabled techniques such as model stitching and merging, intra-network similarities remain underexplored for improving efficiency. In this paper, we propose Transformer Blocks Approximation (TBA), a novel method that leverages intra-network similarities to identify and approximate transformer blocks in large vision models. TBA replaces these blocks using lightweight, closed-form transformations, without retraining or fine-tuning the rest of the model. The proposed method reduces the number of parameters while having minimal impact on the downstream task. We validate the effectiveness and generalizability of TBA through extensive experiments across multiple datasets (e.g., Imagenet-1k and CIFAR100) and state-of-the-art pretrained vision models (e.g, ViT, DiNO-v2, and DEiT).
- Abstract(参考訳): ファンデーションモデルは、様々なタスクやドメインで顕著なパフォーマンスを示してきたが、それらは大量の計算資源を必要とし、アクセシビリティと持続可能性に対する懸念を高めている。
基礎モデルのサイズを減らそうとする以前の試みは、追加のトレーニングステップを通じて計算負荷を増大させるため、問題を完全に解決するに足りなかった。
最近の研究は、ディープニューラルネットワークが内部表現の類似性を示すことを示している。
ネットワーク間の類似性は、モデルの縫合やマージといった技術を可能にする一方で、ネットワーク内の類似性は、効率を改善するために未探索のままである。
本稿では,大規模な視覚モデルにおけるトランスフォーマーブロックの同定と近似にネットワーク内類似性を利用する新しい手法であるTransformer Blocks Approximation (TBA)を提案する。
TBAはこれらのブロックを、モデルの他の部分を再トレーニングしたり微調整したりすることなく、軽量でクローズドな変換で置き換える。
提案手法は,下流タスクへの影響を最小限に抑えながら,パラメータ数を削減する。
複数のデータセット(例えば Imagenet-1k と CIFAR100)と最先端の事前訓練されたビジョンモデル(例えば ViT, DiNO-v2, DEiT)にまたがる広範な実験により,TBAの有効性と一般化性を検証する。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。
近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。
微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:27:20Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Modeling Structure with Undirected Neural Networks [20.506232306308977]
任意の順序で実行できる計算を指定するためのフレキシブルなフレームワークである、非指向型ニューラルネットワークを提案する。
さまざまなタスクにおいて、非構造的かつ構造化された非指向型ニューラルアーキテクチャの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-08T10:06:51Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - Differentiable Neural Architecture Search with Morphism-based
Transformable Backbone Architectures [35.652234989200956]
本研究の目的は,ワンショットトレーニングやオンライントレーニングにアーキテクチャ検索プロセスをより適応させることである。
ネットワークアソシエーションに基づいた、微分可能なニューラルアーキテクチャ探索のための成長メカニズムを導入している。
また、リカレントニューラルネットワークのための最近提案された2入力バックボーンアーキテクチャを実装した。
論文 参考訳(メタデータ) (2021-06-14T07:56:33Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Inter-layer Transition in Neural Architecture Search [89.00449751022771]
本論文では、連結エッジのアーキテクチャ重み間の依存性を明示的にモデル化する。
5つのベンチマーク実験により、層間依存性のモデル化の価値を確認し、提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-30T03:33:52Z) - Adversarially Robust Neural Architectures [43.74185132684662]
本稿では,NASフレームワークを用いたアーキテクチャの観点から,ネットワークの対角的ロバスト性を改善することを目的とする。
本稿では, 対向ロバスト性, リプシッツ定数, アーキテクチャパラメータの関係について検討する。
提案アルゴリズムは,異なるデータセットに対する様々な攻撃の下で,すべてのモデルの中で最高の性能を実証的に達成する。
論文 参考訳(メタデータ) (2020-09-02T08:52:15Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - Consistency of Spectral Clustering on Hierarchical Stochastic Block
Models [5.983753938303726]
実世界のネットワークにおけるコミュニティの階層構造について,汎用ブロックモデルを用いて検討する。
本手法の強い一貫性を,幅広いモデルパラメータで証明する。
既存のほとんどの研究とは異なり、我々の理論は接続確率が桁違いに異なるかもしれないマルチスケールネットワークをカバーしている。
論文 参考訳(メタデータ) (2020-04-30T01:08:59Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。