Fugu-MT 論文翻訳(概要): Bilevel Generative Learning for Low-Light Vision

論文の概要: Bilevel Generative Learning for Low-Light Vision

arxiv url: http://arxiv.org/abs/2308.03381v1
Date: Mon, 7 Aug 2023 07:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 14:32:42.624355
Title: Bilevel Generative Learning for Low-Light Vision
Title（参考訳）: 低照度ビジョンのためのバイレベル生成学習
Authors: Yingchi Liu, Zhu Liu, Long Ma, Jinyuan Liu, Xin Fan, Zhongxuan Luo, Risheng Liu
Abstract要約: 本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
参考スコア（独自算出の注目度）: 64.77933848939327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, there has been a growing interest in constructing deep learning schemes for Low-Light Vision (LLV). Existing techniques primarily focus on designing task-specific and data-dependent vision models on the standard RGB domain, which inherently contain latent data associations. In this study, we propose a generic low-light vision solution by introducing a generative block to convert data from the RAW to the RGB domain. This novel approach connects diverse vision problems by explicitly depicting data generation, which is the first in the field. To precisely characterize the latent correspondence between the generative procedure and the vision task, we establish a bilevel model with the parameters of the generative block defined as the upper level and the parameters of the vision task defined as the lower level. We further develop two types of learning strategies targeting different goals, namely low cost and high accuracy, to acquire a new bilevel generative learning paradigm. The generative blocks embrace a strong generalization ability in other low-light vision tasks through the bilevel optimization on enhancement tasks. Extensive experimental evaluations on three representative low-light vision tasks, namely enhancement, detection, and segmentation, fully demonstrate the superiority of our proposed approach. The code will be available at https://github.com/Yingchi1998/BGL.
Abstract（参考訳）: 近年,低照度ビジョン(LLV)のためのディープラーニングスキームの構築への関心が高まっている。既存の技術は主にタスク固有およびデータ依存のビジョンモデルを標準RGBドメインで設計することに焦点を当てている。本研究では,rawからrgbドメインへデータを変換する生成ブロックを導入することで,汎用的な低光度視覚ソリューションを提案する。この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。生成手順とビジョンタスクとの潜在対応を正確に特徴付けるため、上位レベルとして定義される生成ブロックのパラメータと下位レベルとして定義されたビジョンタスクのパラメータとを両層モデルとする。さらに,新しい二段階生成学習パラダイムを得るために,目標の異なる2種類の学習戦略,すなわち低コストと高精度を開発する。生成ブロックは、強化タスクのバイレベル最適化を通じて、他の低照度視覚タスクにおいて強力な一般化能力を持つ。提案手法の優位性を示すために,3つの代表的な低照度視覚課題,すなわち強調,検出,セグメンテーションの総合的評価を行った。コードはhttps://github.com/Yingchi1998/BGLで入手できる。

関連論文リスト

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。 VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文参考訳（メタデータ） (2024-12-09T11:40:54Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
GHIL-Glue: Hierarchical Control with Filtered Subgoal Images [68.36060286192262]
Generative Hierarchical Imitation Learning-Glue (GHIL-Glue) は、言語条件のイメージやビデオ予測モデルを低レベルな目標条件のポリシーで結合するインタフェースである。 GHIL-Glueはタスクの進行に繋がらないサブゴールをフィルタリングし、有害な視覚的アーティファクトを持つ生成されたサブゴールに対するゴール条件付きポリシーの堅牢性を改善する。我々は、GHIL-Glueが生成サブゴールを利用する複数の階層モデルに対して25%改善するシミュレーション環境と実環境の両方において、広範な実験を行った。
論文参考訳（メタデータ） (2024-10-26T00:32:21Z)
Unsupervised Variational Translator for Bridging Image Restoration and High-Level Vision Tasks [24.076965636237098]
既存の修復ネットワークや高レベルビジョンネットワークの再構築を必要としないtextVariational textbfTranslator (VaT) と呼ばれる教師なし学習手法を提案する。 VaTはラベルを必要とせずに上記の最適化目標を達成する。脱湿・低照度化による検出・分類実験は, 従来の非監督的手法に比べて, 本手法の優位性を示した。
論文参考訳（メタデータ） (2024-08-15T13:35:59Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
Generative-Enhanced Heterogeneous Graph Contrastive Learning [11.118517297006894]
異種グラフ(HG)は、実世界の複雑な関係をマルチタイプのノードとエッジによって効果的にモデル化することができる。近年、自己教師型学習にインスパイアされたHGNN(Heterogeneous Graphs Neural Networks)は、下流タスクにデータ拡張とコントラッシブ・ディミネータを活用することで大きな可能性を示している。本稿では,GHGCL(Generative-Enhanced Heterogeneous Graph Contrastive Learning)を提案する。
論文参考訳（メタデータ） (2024-04-03T15:31:18Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。上述の潜在対応をモデル化するための双レベルパラダイムを導入する。エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文参考訳（メタデータ） (2023-06-02T08:16:21Z)
Self-Aligned Concave Curve: Illumination Enhancement for Unsupervised Adaptation [36.050270650417325]
ハイレベルビジョンのための学習可能な照明強調モデルを提案する。実際のカメラ応答関数にインスパイアされた照明強調関数は凹凸曲線であると仮定する。我々のモデルアーキテクチャとトレーニングデザインは相互に恩恵を受け、強力な教師なし正規-低照度適応フレームワークを形成する。
論文参考訳（メタデータ） (2022-10-07T19:32:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。