論文の概要: A Modular System for Enhanced Robustness of Multimedia Understanding
Networks via Deep Parametric Estimation
- arxiv url: http://arxiv.org/abs/2402.18402v2
- Date: Thu, 29 Feb 2024 09:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:14:20.751981
- Title: A Modular System for Enhanced Robustness of Multimedia Understanding
Networks via Deep Parametric Estimation
- Title(参考訳): 深度パラメトリック推定によるマルチメディア理解ネットワークのロバスト性向上のためのモジュールシステム
- Authors: Francesco Barbato, Umberto Michieli, Mehmet Kerim Yucel, Pietro
Zanuttigh, Mete Ozay
- Abstract要約: マルチメディア理解タスクでは、破損したサンプルは、機械学習モデルにフィードされるとパフォーマンスが低下するので、重要な課題となる。
我々はSyMPIEを提案し、最小の計算コストで下流マルチメディア理解のための入力データを強化する。
私たちの重要な洞察は、ほとんどの入力汚職は、画像の色チャネルや小さなカーネルを持つ空間フィルタのグローバルな操作によってモデル化できるということです。
- 参考スコア(独自算出の注目度): 30.904034138920057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multimedia understanding tasks, corrupted samples pose a critical
challenge, because when fed to machine learning models they lead to performance
degradation. In the past, three groups of approaches have been proposed to
handle noisy data: i) enhancer and denoiser modules to improve the quality of
the noisy data, ii) data augmentation approaches, and iii) domain adaptation
strategies. All the aforementioned approaches come with drawbacks that limit
their applicability; the first has high computational costs and requires pairs
of clean-corrupted data for training, while the others only allow deployment of
the same task/network they were trained on (\ie, when upstream and downstream
task/network are the same). In this paper, we propose SyMPIE to solve these
shortcomings. To this end, we design a small, modular, and efficient (just
2GFLOPs to process a Full HD image) system to enhance input data for robust
downstream multimedia understanding with minimal computational cost. Our SyMPIE
is pre-trained on an upstream task/network that should not match the downstream
ones and does not need paired clean-corrupted samples. Our key insight is that
most input corruptions found in real-world tasks can be modeled through global
operations on color channels of images or spatial filters with small kernels.
We validate our approach on multiple datasets and tasks, such as image
classification (on ImageNetC, ImageNetC-Bar, VizWiz, and a newly proposed mixed
corruption benchmark named ImageNetC-mixed) and semantic segmentation (on
Cityscapes, ACDC, and DarkZurich) with consistent improvements of about 5\%
relative accuracy gain across the board. The code of our approach and the new
ImageNetC-mixed benchmark will be made available upon publication.
- Abstract(参考訳): マルチメディア理解タスクでは、破損したサンプルは、機械学習モデルにフィードされるとパフォーマンスが低下するので、重要な課題となる。
過去、ノイズデータを扱うための3つのアプローチが提案されてきた。
一 ノイズデータの品質を向上させるためのエンハンサー及びデノイザーモジュール
二 データ強化のアプローチ及び
iii) ドメイン適応戦略。
ひとつは高い計算コストを持ち、トレーニングのためにクリーンに破損したデータのペアを必要とし、もうひとつはトレーニングされた同じタスク/ネットワーク(上流と下流のタスク/ネットワークが同じである場合)のデプロイのみを可能にします。
本稿では,これらの問題点を解決するためにSyMPIEを提案する。
この目的のために、我々は、低計算コストで下流マルチメディア理解のための入力データを強化するために、小さくてモジュール的で効率的な(2GFLOPsでフルHD画像を処理する)システムを設計する。
私たちのシンピーは上流のタスク/ネットワークで事前トレーニングされています。
我々の重要な洞察は、現実世界のタスクで見られるほとんどの入力汚職は、画像の色チャネルや小さなカーネルを持つ空間フィルタのグローバルな操作によってモデル化できるということです。
画像分類(imagenetc、imagenetc-bar、vizwiz、新しく提案されたimagenetc-mixedと呼ばれる混合腐敗ベンチマーク)やセマンティックセグメンテーション(cityscapes、adcc、darkzurich)など、複数のデータセットやタスクに対するアプローチを検証することで、ボード全体の相対精度が約52%向上しました。
このアプローチのコードと新しいImageNetC-mixedベンチマークは、公開時に公開されます。
関連論文リスト
- Filling Missing Values Matters for Range Image-Based Point Cloud Segmentation [12.62718910894575]
ポイントクラウドセグメンテーション(PCS)は、ロボットの知覚とナビゲーションタスクにおいて重要な役割を果たす。
大規模屋外点雲を効率的に理解するために、その範囲画像表現が一般的である。
しかし、範囲画像の望ましくない欠落値は、物体の形状やパターンを損なう。
この問題は、オブジェクトからコヒーレントで完全な幾何学的情報を学ぶ際に、モデルにとって困難を生じさせる。
論文 参考訳(メタデータ) (2024-05-16T15:13:42Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Learning to See Low-Light Images via Feature Domain Adaptation [17.033219611079165]
そこで我々は,特徴領域適応(FDA)によって強化された単一段階ネットワークを提案し,生のLLIEにおけるデノイングとカラーマッピングのタスクを分離する。
FDAは、ラインバッファを減らすことで、グローバルとローカルの相関関係を探索することができる。
本手法は,計算コストを削減して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T03:38:26Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。