論文の概要: Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image
Enhancement
- arxiv url: http://arxiv.org/abs/2312.10109v2
- Date: Fri, 2 Feb 2024 03:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:06:32.302782
- Title: Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image
Enhancement
- Title(参考訳): Enlighten-Your-Voice:マルチモーダルがゼロショット低照度画像強調と出会うとき
- Authors: Xiaofeng Zhang, Zishan Xu, Hao Tang, Chaochen Gu, Wei Chen, Shanying
Zhu, Xinping Guan
- Abstract要約: The Enlighten-Your-Voice is a multimodal enhancement framework that openlyriched user interaction through voice and textual command。
本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容と色差に細心の注意を喚起する。
エンライエン・ユール・ヴォイス」は、教師なしゼロショットシナリオにおける顕著な一般化を示す。
- 参考スコア(独自算出の注目度): 25.073590934451055
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Low-light image enhancement is a crucial visual task, and many unsupervised
methods tend to overlook the degradation of visible information in low-light
scenes, which adversely affects the fusion of complementary information and
hinders the generation of satisfactory results. To address this, our study
introduces "Enlighten-Your-Voice", a multimodal enhancement framework that
innovatively enriches user interaction through voice and textual commands. This
approach does not merely signify a technical leap but also represents a
paradigm shift in user engagement. Our model is equipped with a Dual
Collaborative Attention Module (DCAM) that meticulously caters to distinct
content and color discrepancies, thereby facilitating nuanced enhancements.
Complementarily, we introduce a Semantic Feature Fusion (SFM) plug-and-play
module that synergizes semantic context with low-light enhancement operations,
sharpening the algorithm's efficacy. Crucially, "Enlighten-Your-Voice"
showcases remarkable generalization in unsupervised zero-shot scenarios. The
source code can be accessed from
https://github.com/zhangbaijin/Enlighten-Your-Voice
- Abstract(参考訳): 低光度画像エンハンスメントは重要な課題であり、多くの教師なし手法は低光シーンにおける可視情報の劣化を見逃しがちであり、補完的情報の融合に悪影響を与え、良好な結果の生成を妨げている。
そこで本研究では,音声およびテキストコマンドによるユーザインタラクションを革新的に強化するマルチモーダル拡張フレームワークであるEnlighten-Your-Voiceを紹介した。
このアプローチは技術的な飛躍を示すだけでなく、ユーザエンゲージメントのパラダイムシフトをも表している。
本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容や色差に注意して対応し,微妙な拡張を容易にする。
補完的に,低照度強調操作と意味的文脈を融合し,アルゴリズムの有効性を高めるセマンティック・フィーチャー・フュージョン(sfm)プラグ・アンド・プレイモジュールを提案する。
重要なことに、"Enlighten-Your-Voice" は教師なしゼロショットのシナリオにおいて顕著な一般化を示す。
ソースコードはhttps://github.com/zhangbaijin/enlighten-your-voiceからアクセスできる。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale
Attention Transformer and Luminance Consistency Loss [11.585269110131659]
低照度画像強調は、薄暗い環境で収集された画像の知覚を改善することを目的としている。
既存の方法では、識別された輝度情報を適応的に抽出することができず、露光過多や露光過多を容易に引き起こすことができる。
MSATrというマルチスケールアテンション変換器を提案し,光バランスの局所的・グローバル的特徴を十分に抽出し,視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-12-27T10:07:11Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Empowering Low-Light Image Enhancer through Customized Learnable Priors [40.83461757842304]
そこで本稿では,学習先をカスタマイズする可能性を探る,低照度画像強調のためのパラダイムを提案する。
Masked Autoencoder(MAE)の強力な特徴表現機能によって、我々はMAEベースの照明とノイズ先行をカスタマイズする。
論文 参考訳(メタデータ) (2023-09-05T05:20:11Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Enhancement by Your Aesthetic: An Intelligible Unsupervised Personalized
Enhancer for Low-Light Images [67.14410374622699]
低照度画像のための知能的教師なしパーソナライズ・エンハンサー(iUPEnhancer)を提案する。
提案したiUP-Enhancerは、これらの相関関係とそれに対応する教師なし損失関数のガイダンスを用いて訓練される。
実験により,提案アルゴリズムは競合的な質的,定量的な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-07-15T07:16:10Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Unsupervised Low-light Image Enhancement with Decoupled Networks [103.74355338972123]
我々は、実世界の低照度画像を教師なしで拡張する2段階のGANベースのフレームワークを学習する。
提案手法は,照度向上と雑音低減の両面から,最先端の教師なし画像強調法より優れる。
論文 参考訳(メタデータ) (2020-05-06T13:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。