論文の概要: Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion
- arxiv url: http://arxiv.org/abs/2403.15194v1
- Date: Fri, 22 Mar 2024 13:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.279927
- Title: Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion
- Title(参考訳): イメージ・トゥ・ビデオによる自動拡張と融合で受容界を再構築する「My Video」
- Authors: Sofia Casarin, Cynthia I. Ugwu, Sergio Escalera, Oswald Lanz,
- Abstract要約: 本稿では,ビデオとして処理可能な画像のバリエーションを生成するために,最初の微分可能拡張探索法(DAS)を提案する。
DASは非常に高速で柔軟性があり、GPUの1日以内で非常に大きな検索スペースを検索できる。
DASを利用して、タスク依存変換を選択することにより、空間受容場の再構成を誘導する。
- 参考スコア(独自算出の注目度): 35.88039888482076
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The landscape of deep learning research is moving towards innovative strategies to harness the true potential of data. Traditionally, emphasis has been on scaling model architectures, resulting in large and complex neural networks, which can be difficult to train with limited computational resources. However, independently of the model size, data quality (i.e. amount and variability) is still a major factor that affects model generalization. In this work, we propose a novel technique to exploit available data through the use of automatic data augmentation for the tasks of image classification and semantic segmentation. We introduce the first Differentiable Augmentation Search method (DAS) to generate variations of images that can be processed as videos. Compared to previous approaches, DAS is extremely fast and flexible, allowing the search on very large search spaces in less than a GPU day. Our intuition is that the increased receptive field in the temporal dimension provided by DAS could lead to benefits also to the spatial receptive field. More specifically, we leverage DAS to guide the reshaping of the spatial receptive field by selecting task-dependant transformations. As a result, compared to standard augmentation alternatives, we improve in terms of accuracy on ImageNet, Cifar10, Cifar100, Tiny-ImageNet, Pascal-VOC-2012 and CityScapes datasets when plugging-in our DAS over different light-weight video backbones.
- Abstract(参考訳): ディープラーニング研究の展望は、データの真の可能性を活用する革新的な戦略に向かっている。
従来、モデルアーキテクチャのスケーリングに重点を置いていたため、大規模で複雑なニューラルネットワークが生まれ、限られた計算リソースでトレーニングすることは困難だった。
しかし、モデルのサイズとは独立に、データ品質(量と可変性)はモデル一般化に影響を及ぼす主要な要因である。
本研究では,画像分類とセマンティックセグメンテーションのタスクに自動データ拡張を用いることにより,利用可能なデータを活用する新しい手法を提案する。
本稿では,ビデオとして処理可能な画像のバリエーションを生成するために,最初の微分可能拡張探索法(DAS)を提案する。
従来のアプローチと比較して、DASは非常に高速で柔軟性があり、1日以内で非常に大きな検索スペースを検索できる。
我々の直感は、DASが提供する時間的次元における受容野の増加は、空間的受容野にも利益をもたらす可能性があるということである。
より具体的には、DASを利用して、タスク依存変換を選択することにより、空間受容場の再構成を誘導する。
その結果、標準的な拡張代替手段と比較して、異なる軽量ビデオバックボーンにDASを差し込むと、ImageNet、Cifar10、Cifar100、Tiny-ImageNet、Pascal-VOC-2012、CityScapesのデータセットの精度が向上する。
関連論文リスト
- Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。
画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。
我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文 参考訳(メタデータ) (2024-09-30T10:21:54Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - DRCT: Saving Image Super-resolution away from Information Bottleneck [7.765333471208582]
低レベルのビジョンタスクに対するビジョントランスフォーマーベースのアプローチは、広く成功している。
空間情報の損失を軽減するため,Dense-Residual-Connected Transformer (DRCT)を提案する。
提案手法は,ベンチマークデータセットの最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-31T15:34:45Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Learning Temporally Invariant and Localizable Features via Data
Augmentation for Video Recognition [9.860323576151897]
画像認識において、空間的不変性を学ぶことは、認識性能と拡張性を改善する上で重要な要素である。
本研究では,ビデオの時間的不変性や時間的局所的特徴を学習するために,これらの戦略を時間的次元に拡張する。
新たな時間的データ拡張アルゴリズムに基づき,限られた訓練データのみを用いて映像認識性能を向上する。
論文 参考訳(メタデータ) (2020-08-13T06:56:52Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。