論文の概要: Multiscale Deep Equilibrium Models
- arxiv url: http://arxiv.org/abs/2006.08656v2
- Date: Tue, 24 Nov 2020 06:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:30:18.086282
- Title: Multiscale Deep Equilibrium Models
- Title(参考訳): マルチスケール深部平衡モデル
- Authors: Shaojie Bai and Vladlen Koltun and J. Zico Kolter
- Abstract要約: マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
- 参考スコア(独自算出の注目度): 162.15362280927476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new class of implicit networks, the multiscale deep equilibrium
model (MDEQ), suited to large-scale and highly hierarchical pattern recognition
domains. An MDEQ directly solves for and backpropagates through the equilibrium
points of multiple feature resolutions simultaneously, using implicit
differentiation to avoid storing intermediate states (and thus requiring only
$O(1)$ memory consumption). These simultaneously-learned multi-resolution
features allow us to train a single model on a diverse set of tasks and loss
functions, such as using a single MDEQ to perform both image classification and
semantic segmentation. We illustrate the effectiveness of this approach on two
large-scale vision tasks: ImageNet classification and semantic segmentation on
high-resolution images from the Cityscapes dataset. In both settings, MDEQs are
able to match or exceed the performance of recent competitive computer vision
models: the first time such performance and scale have been achieved by an
implicit deep learning approach. The code and pre-trained models are at
https://github.com/locuslab/mdeq .
- Abstract(参考訳): 本稿では,大規模かつ階層的なパターン認識ドメインに適した暗黙的ネットワーク,MDEQ(Multiscale Deep equilibrium Model)を提案する。
MDEQは複数の特徴分解の平衡点を同時に解決し、中間状態の保存を避けるために暗黙の微分を用いる(従ってメモリ消費は$O(1)$である)。
これらの同時学習型マルチレゾリューション機能により、画像分類とセマンティックセグメンテーションの両方を実行するために単一のMDEQを使用するなど、多様なタスクと損失関数のセットで単一のモデルを訓練することができる。
本手法は,都市景観データセットからの高解像度画像に対するイメージネット分類と意味セグメンテーションという2つの大規模ビジョンタスクにおいて有効性を示す。
どちらの環境でも、mdeqsは最近の競争力のあるコンピュータビジョンモデルのパフォーマンスをマッチさせるか、上回ることができる。
コードと事前訓練されたモデルはhttps://github.com/locuslab/mdeq にある。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Collaboration among Image and Object Level Features for Image
Colourisation [25.60139324272782]
画像のカラー化は不適切な問題であり、入力データムに存在するコンテキストとオブジェクトインスタンスに依存する複数の正しいソリューションがある。
従来のアプローチは、強力なユーザーインタラクションを必要とするか、画像レベル(コンテキスト)機能を学ぶために畳み込みニューラルネットワーク(CNN)の能力を利用して、この問題を攻撃しました。
コンボリューションによって得られる画像レベルの特徴とカプセルによってキャプチャされるオブジェクトレベルの特徴を分離する,UCapsNetという単一のネットワークを提案する。
そして,異なる層間の接続をスキップすることで,これらの分離要因間の協調を強制し,高品質で再現可能な画像彩色を実現する。
論文 参考訳(メタデータ) (2021-01-19T11:48:12Z) - Deep Grouping Model for Unified Perceptual Parsing [36.73032339428497]
知覚に基づくグループ化プロセスは階層的および構成的イメージ表現を生成する。
本稿では,2種類の表現を密に結合したディープグルーピングモデル(DGM)を提案し,特徴交換のためのボトムアップとトップダウンプロセスを定義する。
このモデルは、他の文脈ベースセグメンテーションモデルと比較して計算オーバーヘッドが小さく、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-03-25T21:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。