論文の概要: Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks
- arxiv url: http://arxiv.org/abs/2307.08013v1
- Date: Sun, 16 Jul 2023 11:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:12:03.824933
- Title: Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks
- Title(参考訳): 暗黙的モデルの再検討:視覚タスクのための重み付きモデルにおけるスパーシティトレードオフ能力
- Authors: Haobo Song, Soumajit Majumder, Tao Lin
- Abstract要約: ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
- 参考スコア(独自算出の注目度): 7.021044196383126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit models such as Deep Equilibrium Models (DEQs) have garnered
significant attention in the community for their ability to train infinite
layer models with elegant solution-finding procedures and constant memory
footprint. However, despite several attempts, these methods are heavily
constrained by model inefficiency and optimization instability. Furthermore,
fair benchmarking across relevant methods for vision tasks is missing. In this
work, we revisit the line of implicit models and trace them back to the
original weight-tied models. Surprisingly, we observe that weight-tied models
are more effective, stable, as well as efficient on vision tasks, compared to
the DEQ variants. Through the lens of these simple-yet-clean weight-tied
models, we further study the fundamental limits in the model capacity of such
models and propose the use of distinct sparse masks to improve the model
capacity. Finally, for practitioners, we offer design guidelines regarding the
depth, width, and sparsity selection for weight-tied models, and demonstrate
the generalizability of our insights to other learning paradigms.
- Abstract(参考訳): 深層平衡モデル(deqs)のような暗黙のモデルは、エレガントな解探索手順と一定のメモリフットプリントで無限層モデルを訓練できる能力によって、コミュニティに大きな注目を集めてきた。
しかし、いくつかの試みにもかかわらず、これらの手法はモデルの非効率性と最適化の不安定性によって強く制約されている。
さらに、視覚タスクに関連するメソッドに対する公正なベンチマークが欠落している。
この研究では、暗黙のモデル列を再検討し、それらを元の重み付けモデルに遡る。
驚いたことに、重み付きモデルはdeqの変種と比較して、視覚タスクにおいてより効率的で安定であり、効率的である。
これらの単純イットクリーン重み付けモデルのレンズを通して、これらのモデルのモデル容量の基本的な限界について研究し、モデル容量を改善するために異なるスパースマスクの使用を提案する。
最後に,重み付きモデルの深さ,幅,スパーシティ選択に関する設計ガイドラインを提供し,他の学習パラダイムに対する洞察の一般化可能性を示す。
関連論文リスト
- Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Model Stock: All we need is just a few fine-tuned models [34.449901046895185]
本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。
最終的な重量を達成するために、はるかに少ないモデルを採用するが、精度は優れている。
事前学習型CLIPアーキテクチャに基づく微調整モデルを用いたモデルストックの有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T15:57:20Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。