論文の概要: Multiscale Deep Equilibrium Models
- arxiv url: http://arxiv.org/abs/2006.08656v2
- Date: Tue, 24 Nov 2020 06:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:30:18.086282
- Title: Multiscale Deep Equilibrium Models
- Title(参考訳): マルチスケール深部平衡モデル
- Authors: Shaojie Bai and Vladlen Koltun and J. Zico Kolter
- Abstract要約: マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
- 参考スコア(独自算出の注目度): 162.15362280927476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new class of implicit networks, the multiscale deep equilibrium
model (MDEQ), suited to large-scale and highly hierarchical pattern recognition
domains. An MDEQ directly solves for and backpropagates through the equilibrium
points of multiple feature resolutions simultaneously, using implicit
differentiation to avoid storing intermediate states (and thus requiring only
$O(1)$ memory consumption). These simultaneously-learned multi-resolution
features allow us to train a single model on a diverse set of tasks and loss
functions, such as using a single MDEQ to perform both image classification and
semantic segmentation. We illustrate the effectiveness of this approach on two
large-scale vision tasks: ImageNet classification and semantic segmentation on
high-resolution images from the Cityscapes dataset. In both settings, MDEQs are
able to match or exceed the performance of recent competitive computer vision
models: the first time such performance and scale have been achieved by an
implicit deep learning approach. The code and pre-trained models are at
https://github.com/locuslab/mdeq .
- Abstract(参考訳): 本稿では,大規模かつ階層的なパターン認識ドメインに適した暗黙的ネットワーク,MDEQ(Multiscale Deep equilibrium Model)を提案する。
MDEQは複数の特徴分解の平衡点を同時に解決し、中間状態の保存を避けるために暗黙の微分を用いる(従ってメモリ消費は$O(1)$である)。
これらの同時学習型マルチレゾリューション機能により、画像分類とセマンティックセグメンテーションの両方を実行するために単一のMDEQを使用するなど、多様なタスクと損失関数のセットで単一のモデルを訓練することができる。
本手法は,都市景観データセットからの高解像度画像に対するイメージネット分類と意味セグメンテーションという2つの大規模ビジョンタスクにおいて有効性を示す。
どちらの環境でも、mdeqsは最近の競争力のあるコンピュータビジョンモデルのパフォーマンスをマッチさせるか、上回ることができる。
コードと事前訓練されたモデルはhttps://github.com/locuslab/mdeq にある。
関連論文リスト
- Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - [MASK] is All You Need [28.90875822599164]
離散状態モデルを用いてMasked Generative と Non-autoregressive Diffusion を接続する。
離散状態モデルで[MASK]を活用することで、Masked Generative と Non-autoregressive Diffusion モデルを橋渡しできる。
論文 参考訳(メタデータ) (2024-12-09T18:59:56Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Deep Grouping Model for Unified Perceptual Parsing [36.73032339428497]
知覚に基づくグループ化プロセスは階層的および構成的イメージ表現を生成する。
本稿では,2種類の表現を密に結合したディープグルーピングモデル(DGM)を提案し,特徴交換のためのボトムアップとトップダウンプロセスを定義する。
このモデルは、他の文脈ベースセグメンテーションモデルと比較して計算オーバーヘッドが小さく、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-03-25T21:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。