論文の概要: IN45023 Neural Network Design Patterns in Computer Vision Seminar Report, Summer 2025
- arxiv url: http://arxiv.org/abs/2507.23357v1
- Date: Thu, 31 Jul 2025 09:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.336975
- Title: IN45023 Neural Network Design Patterns in Computer Vision Seminar Report, Summer 2025
- Title(参考訳): In45023 コンピュータビジョンセミナー「2025年夏」におけるニューラルネットワーク設計パターン
- Authors: Radu-Andrei Bourceanu, Neil De La Fuente, Jan Grimm, Andrei Jardan, Andriy Manucharyan, Cornelius Weiss, Roman Pflugfelder,
- Abstract要約: 本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
我々は、画像パッチのシーケンスにTransformer ar- chitectureを適用することで、新しいパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report analyzes the evolution of key design patterns in computer vision by examining six influential papers. The analy- sis begins with foundational architectures for image recognition. We review ResNet, which introduced residual connections to overcome the vanishing gradient problem and enable effective training of significantly deeper convolutional networks. Subsequently, we examine the Vision Transformer (ViT), which established a new paradigm by applying the Transformer ar- chitecture to sequences of image patches, demonstrating the efficacy of attention-based models for large-scale image recogni- tion. Building on these visual representation backbones, we investigate generative models. Generative Adversarial Networks (GANs) are analyzed for their novel adversarial training process, which challenges a generator against a discriminator to learn complex data distributions. Then, Latent Diffusion Models (LDMs) are covered, which improve upon prior generative methods by performing a sequential denoising process in a perceptually compressed latent space. LDMs achieve high-fidelity synthesis with greater computational efficiency, representing the current state-of-the-art for image generation. Finally, we explore self-supervised learning techniques that reduce dependency on labeled data. DINO is a self-distillation framework in which a student network learns to match the output of a momentum-updated teacher, yielding features with strong k-NN classification performance. We conclude with Masked Autoencoders (MAE), which utilize an asymmetric encoder-decoder design to reconstruct heavily masked inputs, providing a highly scalable and effective method for pre-training large-scale vision models.
- Abstract(参考訳): 本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
アナリシスは、画像認識のための基礎的なアーキテクチャから始まる。
本稿では,残差接続を導入したResNetについて概説する。これは,消失する勾配問題を克服し,より深い畳み込みネットワークの効果的なトレーニングを可能にする。
その後、画像パッチのシーケンスにTransformer ar-chitectureを適用することで新しいパラダイムを確立し、大規模画像認識のための注目モデルの有効性を実証するビジョントランスフォーマー(ViT)について検討する。
これらの視覚的表現のバックボーンに基づいて、生成モデルについて検討する。
GAN(Generative Adversarial Networks)は,識別器に対して複雑なデータ分布を学習するジェネレータに挑戦する,新たな逆行訓練プロセスについて解析する。
次に、潜在拡散モデル(LDM)を被覆し、知覚的に圧縮された潜在空間において逐次復調処理を行うことにより、先行生成法を改善する。
LDMはより高い計算効率で高忠実な合成を実現し、画像生成の最先端を表現している。
最後に,ラベル付きデータへの依存を減らす自己教師付き学習手法について検討する。
DINOは、学生ネットワークが運動量アップした教師の出力と一致することを学習し、強力なk-NN分類性能を持つ特徴を与える自己蒸留フレームワークである。
我々は、非対称なエンコーダデコーダ設計を用いて、マスキングされた入力を再構成し、大規模ビジョンモデルを事前学習するための高度にスケーラブルで効果的な方法を提供するMasked Autoencoders (MAE) を結論付けている。
関連論文リスト
- Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Adversarial Masking Contrastive Learning for vein recognition [10.886119051977785]
ベイン認識は、セキュリティとプライバシーの高さから注目を集めている。
静脈認識のために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなディープニューラルネットワークが導入されている。
近年の進歩にもかかわらず、画像サンプルの不足のため、指先の特徴抽出のための既存のソリューションはまだ最適ではない。
論文 参考訳(メタデータ) (2024-01-16T03:09:45Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Reconstruction-guided attention improves the robustness and shape
processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文 参考訳(メタデータ) (2022-09-27T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。