論文の概要: CURVE: CLIP-Utilized Reinforcement Learning for Visual Image Enhancement via Simple Image Processing
- arxiv url: http://arxiv.org/abs/2505.23102v2
- Date: Tue, 08 Jul 2025 14:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 14:27:12.566952
- Title: CURVE: CLIP-Utilized Reinforcement Learning for Visual Image Enhancement via Simple Image Processing
- Title(参考訳): CURVE:簡単な画像処理による視覚強調のためのCLIPを利用した強化学習
- Authors: Yuka Ogino, Takahiro Toizumi, Atsushi Ito,
- Abstract要約: 低光画像強調(LLIE)は、人間の知覚とコンピュータビジョンの両方を改善するために重要である。
本稿では、ゼロ参照LLIEにおける2つの課題として、知覚的に「良い」画像を取得し、高解像度画像の計算効率を維持することを挙げる。
私たちはCLIPを利用した強化学習に基づく視覚強調(CURVE)を提案する。
- 参考スコア(独自算出の注目度): 0.5803309695504829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Light Image Enhancement (LLIE) is crucial for improving both human perception and computer vision tasks. This paper addresses two challenges in zero-reference LLIE: obtaining perceptually 'good' images using the Contrastive Language-Image Pre-Training (CLIP) model and maintaining computational efficiency for high-resolution images. We propose CLIP-Utilized Reinforcement learning-based Visual image Enhancement (CURVE). CURVE employs a simple image processing module which adjusts global image tone based on B\'ezier curve and estimates its processing parameters iteratively. The estimator is trained by reinforcement learning with rewards designed using CLIP text embeddings. Experiments on low-light and multi-exposure datasets demonstrate the performance of CURVE in terms of enhancement quality and processing speed compared to conventional methods.
- Abstract(参考訳): 低光画像強調(LLIE)は、人間の知覚とコンピュータビジョンの両方を改善するために重要である。
本稿では,ゼロ参照LLIEにおける2つの課題として,コントラスト言語-画像事前学習(CLIP)モデルを用いた知覚的「良い」画像の取得と高解像度画像の計算効率の維持について述べる。
本稿では,CLIPを利用した強化学習に基づく視覚画像強調(CURVE)を提案する。
CURVEは、B\'ezier曲線に基づいてグローバル画像のトーンを調整し、その処理パラメータを反復的に推定する単純な画像処理モジュールを使用している。
推定子は、CLIPテキスト埋め込みを使って設計された報酬で強化学習によって訓練される。
低照度・多露光データセットの実験は、従来の手法と比較して品質向上と処理速度の向上の観点からCURVEの性能を実証している。
関連論文リスト
- ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - Leveraging Content and Context Cues for Low-Light Image Enhancement [25.97198463881292]
低照度条件はマシン認知に悪影響を及ぼし、現実のコンピュータビジョンシステムの性能を制限する。
本稿では、CLIPモデルを利用して、画像の先行と意味的ガイダンスの取得により、既存のゼロ参照低照度化を改善することを提案する。
提案手法は,画像のコントラストと色調の改善,背景背景の識別の改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-12-10T17:32:09Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance [7.041364616661048]
Foveal-Attention CLIP (FALIP) は、多頭部自己注意モジュールに葉の注意マスクを挿入することにより、CLIPの注意を調節する。
FALIPは、表現理解、画像分類、3Dポイントクラウド認識などのタスクにおいて、CLIPゼロショットのパフォーマンスを効果的に向上する。
論文 参考訳(メタデータ) (2024-07-08T03:23:13Z) - CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文 参考訳(メタデータ) (2023-11-07T12:36:20Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。