論文の概要: Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image
Enhancement
- arxiv url: http://arxiv.org/abs/2312.10109v2
- Date: Fri, 2 Feb 2024 03:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:06:32.302782
- Title: Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image
Enhancement
- Title(参考訳): Enlighten-Your-Voice:マルチモーダルがゼロショット低照度画像強調と出会うとき
- Authors: Xiaofeng Zhang, Zishan Xu, Hao Tang, Chaochen Gu, Wei Chen, Shanying
Zhu, Xinping Guan
- Abstract要約: The Enlighten-Your-Voice is a multimodal enhancement framework that openlyriched user interaction through voice and textual command。
本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容と色差に細心の注意を喚起する。
エンライエン・ユール・ヴォイス」は、教師なしゼロショットシナリオにおける顕著な一般化を示す。
- 参考スコア(独自算出の注目度): 25.073590934451055
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Low-light image enhancement is a crucial visual task, and many unsupervised
methods tend to overlook the degradation of visible information in low-light
scenes, which adversely affects the fusion of complementary information and
hinders the generation of satisfactory results. To address this, our study
introduces "Enlighten-Your-Voice", a multimodal enhancement framework that
innovatively enriches user interaction through voice and textual commands. This
approach does not merely signify a technical leap but also represents a
paradigm shift in user engagement. Our model is equipped with a Dual
Collaborative Attention Module (DCAM) that meticulously caters to distinct
content and color discrepancies, thereby facilitating nuanced enhancements.
Complementarily, we introduce a Semantic Feature Fusion (SFM) plug-and-play
module that synergizes semantic context with low-light enhancement operations,
sharpening the algorithm's efficacy. Crucially, "Enlighten-Your-Voice"
showcases remarkable generalization in unsupervised zero-shot scenarios. The
source code can be accessed from
https://github.com/zhangbaijin/Enlighten-Your-Voice
- Abstract(参考訳): 低光度画像エンハンスメントは重要な課題であり、多くの教師なし手法は低光シーンにおける可視情報の劣化を見逃しがちであり、補完的情報の融合に悪影響を与え、良好な結果の生成を妨げている。
そこで本研究では,音声およびテキストコマンドによるユーザインタラクションを革新的に強化するマルチモーダル拡張フレームワークであるEnlighten-Your-Voiceを紹介した。
このアプローチは技術的な飛躍を示すだけでなく、ユーザエンゲージメントのパラダイムシフトをも表している。
本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容や色差に注意して対応し,微妙な拡張を容易にする。
補完的に,低照度強調操作と意味的文脈を融合し,アルゴリズムの有効性を高めるセマンティック・フィーチャー・フュージョン(sfm)プラグ・アンド・プレイモジュールを提案する。
重要なことに、"Enlighten-Your-Voice" は教師なしゼロショットのシナリオにおいて顕著な一般化を示す。
ソースコードはhttps://github.com/zhangbaijin/enlighten-your-voiceからアクセスできる。
関連論文リスト
- Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement [59.17372460692809]
本研究は、平均教師による半教師付き低照度強化(Semi-LLIE)フレームワークを提案する。
照度分布を忠実に伝達するために、意味認識によるコントラスト損失を導入し、自然色による画像の強調に寄与する。
また,大規模な視覚言語認識モデル(RAM)に基づく新たな知覚損失を提案し,よりリッチなテキストによる画像生成を支援する。
論文 参考訳(メタデータ) (2024-09-25T04:05:32Z) - Unsupervised Image Prior via Prompt Learning and CLIP Semantic Guidance for Low-Light Image Enhancement [25.97198463881292]
本稿では,よりリッチな視覚言語CLIPを利用して,ゼロ参照低照度化手法を提案する。
提案手法はタスクベース性能に関する各種データセット間で一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2024-05-19T08:06:14Z) - CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement [97.95330185793358]
低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。
既存の手法では、様々な明るさ劣化からの回復の不確実性と、テクスチャと色情報の喪失という2つの課題に直面している。
我々は、量子化された先行値と画像の精細化を利用して、新しいエンハンスメント手法、CodeEnhanceを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:34:39Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale
Attention Transformer and Luminance Consistency Loss [11.585269110131659]
低照度画像強調は、薄暗い環境で収集された画像の知覚を改善することを目的としている。
既存の方法では、識別された輝度情報を適応的に抽出することができず、露光過多や露光過多を容易に引き起こすことができる。
MSATrというマルチスケールアテンション変換器を提案し,光バランスの局所的・グローバル的特徴を十分に抽出し,視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-12-27T10:07:11Z) - Enhancement by Your Aesthetic: An Intelligible Unsupervised Personalized
Enhancer for Low-Light Images [67.14410374622699]
低照度画像のための知能的教師なしパーソナライズ・エンハンサー(iUPEnhancer)を提案する。
提案したiUP-Enhancerは、これらの相関関係とそれに対応する教師なし損失関数のガイダンスを用いて訓練される。
実験により,提案アルゴリズムは競合的な質的,定量的な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-07-15T07:16:10Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Unsupervised Low-light Image Enhancement with Decoupled Networks [103.74355338972123]
我々は、実世界の低照度画像を教師なしで拡張する2段階のGANベースのフレームワークを学習する。
提案手法は,照度向上と雑音低減の両面から,最先端の教師なし画像強調法より優れる。
論文 参考訳(メタデータ) (2020-05-06T13:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。