論文の概要: Let Segment Anything Help Image Dehaze
- arxiv url: http://arxiv.org/abs/2306.15870v1
- Date: Wed, 28 Jun 2023 02:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:16:12.794982
- Title: Let Segment Anything Help Image Dehaze
- Title(参考訳): セグメンテーションはイメージデヘイズに役立ちます
- Authors: Zheyan Jin, Shiqi Chen, Yueting Chen, Zhihai Xu, Huajun Feng
- Abstract要約: 低レベルコンピュータビジョンタスクに先立って,大規模モデルを統合するためのフレームワークを提案する。
低レベル視覚タスクの導出における大規模モデルの有効性と適用性を示す。
- 参考スコア(独自算出の注目度): 12.163299570927302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The large language model and high-level vision model have achieved impressive
performance improvements with large datasets and model sizes. However,
low-level computer vision tasks, such as image dehaze and blur removal, still
rely on a small number of datasets and small-sized models, which generally
leads to overfitting and local optima. Therefore, we propose a framework to
integrate large-model prior into low-level computer vision tasks. Just as with
the task of image segmentation, the degradation of haze is also
texture-related. So we propose to detect gray-scale coding, network channel
expansion, and pre-dehaze structures to integrate large-model prior knowledge
into any low-level dehazing network. We demonstrate the effectiveness and
applicability of large models in guiding low-level visual tasks through
different datasets and algorithms comparison experiments. Finally, we
demonstrate the effect of grayscale coding, network channel expansion, and
recurrent network structures through ablation experiments. Under the conditions
where additional data and training resources are not required, we successfully
prove that the integration of large-model prior knowledge will improve the
dehaze performance and save training time for low-level visual tasks.
- Abstract(参考訳): 大きな言語モデルと高レベルのビジョンモデルは、大きなデータセットとモデルサイズで素晴らしいパフォーマンス向上を実現しています。
しかし、画像デヘイズやぼかし除去のような低レベルのコンピュータビジョンタスクは、依然として少数のデータセットと小さなモデルに依存しており、一般的にオーバーフィットと局所的なオプティマをもたらす。
そこで本稿では,大規模モデルを低レベルコンピュータビジョンタスクに統合するフレームワークを提案する。
画像分割のタスクと同様に、hazeの分解もテクスチャに関連している。
そこで我々は,グレースケール符号化,ネットワークチャネル拡張,プリデヘイズ構造を検出し,低レベルデヘイジングネットワークに大規模事前知識を統合することを提案する。
異なるデータセットとアルゴリズムの比較実験により,低レベルの視覚タスクを導く上で,大規模モデルの有効性と適用性を示す。
最後に,灰色スケール符号化,ネットワークチャネル拡張,リカレントネットワーク構造の効果をアブレーション実験により実証する。
追加のデータやトレーニングリソースが不要な条件下では,大規模モデルの事前知識の統合により,劣化性能が向上し,低レベル視覚タスクのトレーニング時間を短縮できることを示す。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning [33.89483627891117]
言語と視覚アシスタントの最近の進歩は印象的な能力を示しているが、透明性の欠如に悩まされている。
オープンソースモデルは、一般的なイメージタスクを効果的に処理するが、複雑な視覚的なテキスト理解の高度な計算要求に直面する。
本研究の目的は、キーコンポーネントを特定し、制約付き推論コストで効率的なモデルを作成することにより、視覚言語モデルの設計を再定義することである。
論文 参考訳(メタデータ) (2024-06-17T17:57:30Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Hybrid BYOL-ViT: Efficient approach to deal with small Datasets [0.0]
本稿では,ラベルなしデータの強大かつ十分な増大を伴う自己超越が,ニューラルネットワークの第1層を効果的に学習する方法について検討する。
自己教師型アーキテクチャから派生した低レベルの特徴は、この創発的アーキテクチャの堅牢性と全体的な性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-11-08T21:44:31Z) - Image Augmentation for Multitask Few-Shot Learning: Agricultural Domain
Use-Case [0.0]
本稿では,植物フェノミクスドメインの例に基づいて,小規模で不均衡なデータセットに挑戦する。
画像拡張フレームワークを導入することで,トレーニングサンプル数を大幅に拡大することができる。
本手法は,少数のトレーニングサンプルが利用可能であれば,モデル性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-24T14:08:34Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。