論文の概要: Convolutional Networks as Extremely Small Foundation Models: Visual Prompting and Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2409.10555v1
- Date: Tue, 3 Sep 2024 12:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:22:31.424564
- Title: Convolutional Networks as Extremely Small Foundation Models: Visual Prompting and Theoretical Perspective
- Title(参考訳): 極小基礎モデルとしての畳み込みネットワーク:ビジュアル・プロンプティングと理論的展望
- Authors: Jianqiao Wangni,
- Abstract要約: 本稿では,汎用的なディープネットワークを新たなタスクに適応させるプロンプトモジュールを設計する。
学習理論によって駆動され、同じトレーニングエラーの下でより良く一般化されるように、可能な限りシンプルなモジュールを誘導する。
実際、SDForestは非常に低コストで、CPUでもリアルタイムに実現できる。
- 参考スコア(独自算出の注目度): 1.79487674052027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparing to deep neural networks trained for specific tasks, those foundational deep networks trained on generic datasets such as ImageNet classification, benefits from larger-scale datasets, simpler network structure and easier training techniques. In this paper, we design a prompting module which performs few-shot adaptation of generic deep networks to new tasks. Driven by learning theory, we derive prompting modules that are as simple as possible, as they generalize better under the same training error. We use a case study on video object segmentation to experiment. We give a concrete prompting module, the Semi-parametric Deep Forest (SDForest) that combines several nonparametric methods such as correlation filter, random forest, image-guided filter, with a deep network trained for ImageNet classification task. From a learning-theoretical point of view, all these models are of significantly smaller VC dimension or complexity so tend to generalize better, as long as the empirical studies show that the training error of this simple ensemble can achieve comparable results from a end-to-end trained deep network. We also propose a novel methods of analyzing the generalization under the setting of video object segmentation to make the bound tighter. In practice, SDForest has extremely low computation cost and achieves real-time even on CPU. We test on video object segmentation tasks and achieve competitive performance at DAVIS2016 and DAVIS2017 with purely deep learning approaches, without any training or fine-tuning.
- Abstract(参考訳): 特定のタスクのためにトレーニングされたディープニューラルネットワークと比較して、ImageNet分類や大規模データセットのメリット、より単純なネットワーク構造、より簡単なトレーニングテクニックといった、一般的なデータセットに基づいてトレーニングされた基礎的なディープネットワークがある。
本稿では,汎用的なディープネットワークを新たなタスクに適応させるプロンプトモジュールを設計する。
学習理論によって駆動され、同じトレーニングエラーの下でより良く一般化されるように、可能な限りシンプルなモジュールを誘導する。
実験にはビデオオブジェクトセグメンテーションのケーススタディを用いる。
我々は、相関フィルタ、ランダムフォレスト、画像誘導フィルタなどの非パラメトリックな手法と、ImageNet分類タスクのために訓練されたディープネットワークを組み合わせた、具体的なプロンプトモジュールであるセミパラメトリックディープフォレスト(SDForest)を提供する。
学習理論の観点からは、これらのモデルはすべてVCの次元や複雑さが著しく小さいので、実験的な研究から、この単純なアンサンブルのトレーニングエラーがエンドツーエンドの訓練されたディープネットワークから同等の結果が得られることが示される限り、より一般化する傾向にある。
また,ビデオオブジェクトセグメンテーションの設定下での一般化を解析し,より厳密にする手法を提案する。
実際、SDForestは計算コストが極端に低く、CPUでもリアルタイムに実現できる。
DAVIS2016とDAVIS2017では、トレーニングや微調整なしに、純粋に深層学習アプローチでビデオオブジェクトセグメンテーションタスクをテストし、競争性能を達成する。
関連論文リスト
- ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z) - FNA++: Fast Network Adaptation via Parameter Remapping and Architecture
Search [35.61441231491448]
本稿では,シードネットワークのアーキテクチャとパラメータの両方を適応できるFNA++法を提案する。
実験では、FNA++をMobileNetV2に適用し、セマンティックセグメンテーション、オブジェクト検出、人間のポーズ推定のための新しいネットワークを得る。
FNA++の総計算コストは、SOTAセグメンテーションやNASアプローチよりも大幅に少ない。
論文 参考訳(メタデータ) (2020-06-21T10:03:34Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z) - Finding the Optimal Network Depth in Classification Tasks [10.248235276871258]
複数の分類器ヘッドを用いた軽量ニューラルネットワークの高速エンドツーエンド学習法を開発した。
モデルが各ヘッドの重要性を決定することによって、ネットワークの不要なコンポーネントを検出し、取り除くことができる。
論文 参考訳(メタデータ) (2020-04-17T11:08:45Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。