論文の概要: Designing High-Performing Networks for Multi-Scale Computer Vision
- arxiv url: http://arxiv.org/abs/2402.12536v1
- Date: Mon, 19 Feb 2024 20:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:12:51.017024
- Title: Designing High-Performing Networks for Multi-Scale Computer Vision
- Title(参考訳): マルチスケールコンピュータビジョンのための高性能ネットワークの設計
- Authors: C\'edric Picron
- Abstract要約: この論文はコンピュータビジョンモデルのネットワーク設計の改善に焦点を当てている。
これらの新しいネットワーク設計の目標は、文献から既存のベースライン設計を上回ることにある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the emergence of deep learning, the computer vision field has
flourished with models improving at a rapid pace on more and more complex
tasks. We distinguish three main ways to improve a computer vision model: (1)
improving the data aspect by for example training on a large, more diverse
dataset, (2) improving the training aspect by for example designing a better
optimizer, and (3) improving the network architecture (or network for short).
In this thesis, we chose to improve the latter, i.e. improving the network
designs of computer vision models. More specifically, we investigate new
network designs for multi-scale computer vision tasks, which are tasks
requiring to make predictions about concepts at different scales. The goal of
these new network designs is to outperform existing baseline designs from the
literature. Specific care is taken to make sure the comparisons are fair, by
guaranteeing that the different network designs were trained and evaluated with
the same settings. Code is publicly available at
https://github.com/CedricPicron/DetSeg.
- Abstract(参考訳): ディープラーニングの出現以来、コンピュータビジョンの分野は、より複雑なタスクにおいて、モデルの改善が急速に進んでいる。
コンピュータビジョンモデルを改善するための3つの主な方法は,(1)大規模でより多様なデータセットでのトレーニングによるデータアスペクトの改善,(2)より優れたオプティマイザの設計によるトレーニングアスペクトの改善、(3)ネットワークアーキテクチャ(あるいは略してネットワーク)の改善である。
本論文では,後者,すなわちコンピュータビジョンモデルのネットワーク設計を改善することを選んだ。
より具体的には,マルチスケールコンピュータビジョンタスクのための新しいネットワーク設計について検討する。
これらの新しいネットワーク設計の目標は、文献から既存のベースライン設計を上回ることにある。
異なるネットワーク設計が同じ設定でトレーニングされ、評価されることを保証することにより、比較が公平であることを確認するために、特別な注意が払われる。
コードはhttps://github.com/cedricpicron/detsegで公開されている。
関連論文リスト
- Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Tuning computer vision models with task rewards [88.45787930908102]
モデル予測と意図された使用法とのミスは、コンピュータビジョンモデルの展開に有害である。
自然言語処理では、モデルとタスク報酬を整合させる強化学習技術を用いて、この問題に対処することが多い。
我々はこのアプローチを採用し、オブジェクト検出、汎視的セグメンテーション、着色、画像キャプションなど、複数のコンピュータビジョンタスクにまたがる驚くべき効果を示す。
論文 参考訳(メタデータ) (2023-02-16T11:49:48Z) - Twins: Revisiting Spatial Attention Design in Vision Transformers [81.02454258677714]
本稿では,注意深い空間的注意機構が最先端のスキームに対して好適に機能することを実証する。
Twins-PCPVTとTwins-SVTの2つのビジョントランスアーキテクチャを提案します。
提案するアーキテクチャは,現代のディープラーニングフレームワークに高度に最適化された行列乗算のみを含む,高効率かつ実装が容易である。
論文 参考訳(メタデータ) (2021-04-28T15:42:31Z) - Contrastive Spatial Reasoning on Multi-View Line Drawings [11.102238863932255]
SPARE3Dデータセットでは、最先端の監視されたディープネットワークが低パフォーマンスのパズルを見せます。
ベースライン性能を向上させるために、他のネットワーク変更とともに単純な対比学習アプローチを提案します。
提案手法では,自己教師付きバイナリ分類ネットワークを用いて,類似する2種類の3dオブジェクトのさまざまなビュー間の線描画の違いを比較する。
論文 参考訳(メタデータ) (2021-04-27T19:05:27Z) - Learning to Resize Images for Computer Vision Tasks [15.381549764216134]
そこで本研究では,リニアリシライザを学習リシライザに置き換えることで,性能を大幅に向上できることを示す。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
論文 参考訳(メタデータ) (2021-03-17T23:43:44Z) - Revisiting ResNets: Improved Training and Scaling Strategies [54.0162571976267]
トレーニングとスケーリングの戦略は、アーキテクチャの変更よりも重要であり、その結果、ResNetは最新のモデルと一致します。
ベストパフォーマンスなスケーリング戦略は、トレーニング体制に依存することを示します。
私たちは、ResNetアーキテクチャのファミリー、ResNet-RSを設計します。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍 - 2.7倍高速です。
論文 参考訳(メタデータ) (2021-03-13T00:18:19Z) - Graph-Based Neural Network Models with Multiple Self-Supervised
Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。
マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2020-11-14T11:09:51Z) - NeurAll: Towards a Unified Visual Perception Model for Automated Driving [8.49826472556323]
本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。
自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。
論文 参考訳(メタデータ) (2019-02-10T12:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。