論文の概要: Bilevel Generative Learning for Low-Light Vision
- arxiv url: http://arxiv.org/abs/2308.03381v1
- Date: Mon, 7 Aug 2023 07:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 14:32:42.624355
- Title: Bilevel Generative Learning for Low-Light Vision
- Title(参考訳): 低照度ビジョンのためのバイレベル生成学習
- Authors: Yingchi Liu, Zhu Liu, Long Ma, Jinyuan Liu, Xin Fan, Zhongxuan Luo,
Risheng Liu
- Abstract要約: 本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
- 参考スコア(独自算出の注目度): 64.77933848939327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a growing interest in constructing deep learning
schemes for Low-Light Vision (LLV). Existing techniques primarily focus on
designing task-specific and data-dependent vision models on the standard RGB
domain, which inherently contain latent data associations. In this study, we
propose a generic low-light vision solution by introducing a generative block
to convert data from the RAW to the RGB domain. This novel approach connects
diverse vision problems by explicitly depicting data generation, which is the
first in the field. To precisely characterize the latent correspondence between
the generative procedure and the vision task, we establish a bilevel model with
the parameters of the generative block defined as the upper level and the
parameters of the vision task defined as the lower level. We further develop
two types of learning strategies targeting different goals, namely low cost and
high accuracy, to acquire a new bilevel generative learning paradigm. The
generative blocks embrace a strong generalization ability in other low-light
vision tasks through the bilevel optimization on enhancement tasks. Extensive
experimental evaluations on three representative low-light vision tasks, namely
enhancement, detection, and segmentation, fully demonstrate the superiority of
our proposed approach. The code will be available at
https://github.com/Yingchi1998/BGL.
- Abstract(参考訳): 近年,低照度ビジョン(LLV)のためのディープラーニングスキームの構築への関心が高まっている。
既存の技術は主にタスク固有およびデータ依存のビジョンモデルを標準RGBドメインで設計することに焦点を当てている。
本研究では,rawからrgbドメインへデータを変換する生成ブロックを導入することで,汎用的な低光度視覚ソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
生成手順とビジョンタスクとの潜在対応を正確に特徴付けるため、上位レベルとして定義される生成ブロックのパラメータと下位レベルとして定義されたビジョンタスクのパラメータとを両層モデルとする。
さらに,新しい二段階生成学習パラダイムを得るために,目標の異なる2種類の学習戦略,すなわち低コストと高精度を開発する。
生成ブロックは、強化タスクのバイレベル最適化を通じて、他の低照度視覚タスクにおいて強力な一般化能力を持つ。
提案手法の優位性を示すために,3つの代表的な低照度視覚課題,すなわち強調,検出,セグメンテーションの総合的評価を行った。
コードはhttps://github.com/Yingchi1998/BGLで入手できる。
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks [24.076965636237098]
既存の修復ネットワークや高レベルビジョンネットワークの再構築を必要としないtextVariational textbfTranslator (VaT) と呼ばれる教師なし学習手法を提案する。
VaTはラベルを必要とせずに上記の最適化目標を達成する。
脱湿・低照度化による検出・分類実験は, 従来の非監督的手法に比べて, 本手法の優位性を示した。
論文 参考訳(メタデータ) (2024-08-15T13:35:59Z) - Generative-Enhanced Heterogeneous Graph Contrastive Learning [11.118517297006894]
異種グラフ(HG)は、実世界の複雑な関係をマルチタイプのノードとエッジによって効果的にモデル化することができる。
近年、自己教師型学習にインスパイアされたHGNN(Heterogeneous Graphs Neural Networks)は、下流タスクにデータ拡張とコントラッシブ・ディミネータを活用することで大きな可能性を示している。
本稿では,GHGCL(Generative-Enhanced Heterogeneous Graph Contrastive Learning)を提案する。
論文 参考訳(メタデータ) (2024-04-03T15:31:18Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。