論文の概要: Data-efficient Large Vision Models through Sequential Autoregression
- arxiv url: http://arxiv.org/abs/2402.04841v1
- Date: Wed, 7 Feb 2024 13:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:14:16.809775
- Title: Data-efficient Large Vision Models through Sequential Autoregression
- Title(参考訳): 逐次自己回帰によるデータ効率大ビジョンモデル
- Authors: Jianyuan Guo, Zhiwei Hao, Chengcheng Wang, Yehui Tang, Han Wu, Han Hu,
Kai Han, Chang Xu
- Abstract要約: 限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
- 参考スコア(独自算出の注目度): 58.26179273091461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training general-purpose vision models on purely sequential visual data,
eschewing linguistic inputs, has heralded a new frontier in visual
understanding. These models are intended to not only comprehend but also
seamlessly transit to out-of-domain tasks. However, current endeavors are
hamstrung by an over-reliance on colossal models, exemplified by models with
upwards of 3B parameters, and the necessity for an extensive corpus of visual
data, often comprising a staggering 400B tokens. In this paper, we delve into
the development of an efficient, autoregression-based vision model,
innovatively architected to operate on a limited dataset. We meticulously
demonstrate how this model achieves proficiency in a spectrum of visual tasks
spanning both high-level and low-level semantic understanding during the
testing phase. Our empirical evaluations underscore the model's agility in
adapting to various tasks, heralding a significant reduction in the parameter
footprint, and a marked decrease in training data requirements, thereby paving
the way for more sustainable and accessible advancements in the field of
generalist vision models. The code is available at
https://github.com/ggjy/DeLVM.
- Abstract(参考訳): 純粋にシーケンシャルな視覚データに基づく汎用視覚モデルの訓練は、言語入力を回避し、視覚理解の新しいフロンティアとなった。
これらのモデルは理解するだけでなく、ドメイン外のタスクにシームレスに移行することを目的としています。
しかし、現在の取り組みは、3Bパラメータが上向きのモデルで例示されるような余剰モデルの過度な信頼と、400Bトークンをステージングする大規模な視覚データコーパスの必要性によって妨げられている。
本稿では,限られたデータセット上での操作を革新的に設計した,効率的な自己回帰に基づく視覚モデルの開発について検討する。
我々は,テスト段階における高レベル・低レベルのセマンティック理解にまたがる視覚タスクのスペクトルにおいて,このモデルが習熟度を正確に示す。
我々の経験的評価は、様々なタスクに適応し、パラメータフットプリントを大幅に削減し、トレーニングデータ要求を著しく減らし、一般の視覚モデル分野におけるより持続的でアクセスしやすい進歩の道を開くことを示唆している。
コードはhttps://github.com/ggjy/DeLVMで入手できる。
関連論文リスト
- Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Using Explanations to Guide Models [68.64377323216817]
モデルガイダンスは、時にはモデルパフォーマンスも改善できることを示す。
本研究では,物体の特徴に着目したモデルの有効性を示す新しいエネルギー損失を提案する。
また、バウンディングボックスアノテーションのわずかな部分でも、これらのゲインが達成可能であることも示しています。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Localized Latent Updates for Fine-Tuning Vision-Language Models [15.285292154680246]
この作業では,データポイントに近いモデル予測のみを更新する,軽量なアダプタを提案する。
我々は、この比較的単純なアプローチの有効性とスピードを、数ショットの学習の文脈で示し、トレーニング中に見られるクラスと見えないクラスの両方の結果が、芸術の状況に匹敵するか、改善されるかのどちらかであることを示した。
論文 参考訳(メタデータ) (2022-12-13T13:15:20Z) - Reducing Overlearning through Disentangled Representations by
Suppressing Unknown Tasks [8.517620051440005]
視覚的特徴を学習するための既存のディープラーニングアプローチは、手元にあるタスクに必要なものよりも、過剰に学習し、より多くの情報を抽出する傾向がある。
プライバシー保護の観点からは、入力された視覚情報はモデルから保護されない。
未知のタスクを全て抑制することで、モデルオーバーラーニングを減らすためのモデル非依存のソリューションを提案する。
論文 参考訳(メタデータ) (2020-05-20T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。