Fugu-MT 論文翻訳(概要): Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image Enhancement

論文の概要: Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image Enhancement

arxiv url: http://arxiv.org/abs/2312.10109v2
Date: Fri, 2 Feb 2024 03:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 19:06:32.302782
Title: Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image Enhancement
Title（参考訳）: Enlighten-Your-Voice:マルチモーダルがゼロショット低照度画像強調と出会うとき
Authors: Xiaofeng Zhang, Zishan Xu, Hao Tang, Chaochen Gu, Wei Chen, Shanying Zhu, Xinping Guan
Abstract要約: The Enlighten-Your-Voice is a multimodal enhancement framework that openlyriched user interaction through voice and textual command。本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容と色差に細心の注意を喚起する。エンライエン・ユール・ヴォイス」は、教師なしゼロショットシナリオにおける顕著な一般化を示す。
参考スコア（独自算出の注目度）: 25.073590934451055
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Low-light image enhancement is a crucial visual task, and many unsupervised methods tend to overlook the degradation of visible information in low-light scenes, which adversely affects the fusion of complementary information and hinders the generation of satisfactory results. To address this, our study introduces "Enlighten-Your-Voice", a multimodal enhancement framework that innovatively enriches user interaction through voice and textual commands. This approach does not merely signify a technical leap but also represents a paradigm shift in user engagement. Our model is equipped with a Dual Collaborative Attention Module (DCAM) that meticulously caters to distinct content and color discrepancies, thereby facilitating nuanced enhancements. Complementarily, we introduce a Semantic Feature Fusion (SFM) plug-and-play module that synergizes semantic context with low-light enhancement operations, sharpening the algorithm's efficacy. Crucially, "Enlighten-Your-Voice" showcases remarkable generalization in unsupervised zero-shot scenarios. The source code can be accessed from https://github.com/zhangbaijin/Enlighten-Your-Voice
Abstract（参考訳）: 低光度画像エンハンスメントは重要な課題であり、多くの教師なし手法は低光シーンにおける可視情報の劣化を見逃しがちであり、補完的情報の融合に悪影響を与え、良好な結果の生成を妨げている。そこで本研究では,音声およびテキストコマンドによるユーザインタラクションを革新的に強化するマルチモーダル拡張フレームワークであるEnlighten-Your-Voiceを紹介した。このアプローチは技術的な飛躍を示すだけでなく、ユーザエンゲージメントのパラダイムシフトをも表している。本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容や色差に注意して対応し,微妙な拡張を容易にする。補完的に,低照度強調操作と意味的文脈を融合し,アルゴリズムの有効性を高めるセマンティック・フィーチャー・フュージョン(sfm)プラグ・アンド・プレイモジュールを提案する。重要なことに、"Enlighten-Your-Voice" は教師なしゼロショットのシナリオにおいて顕著な一般化を示す。ソースコードはhttps://github.com/zhangbaijin/enlighten-your-voiceからアクセスできる。

関連論文リスト

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Imit Diff: Semantics Guided Diffusion Transformer with Dual Resolution Fusion for Imitation Learning [26.018598352491935]
擬似学習のための二分解能融合型セマンティック誘導拡散変圧器Imit Diffを紹介する。提案手法では,視覚言語基礎モデルからの事前知識を活用して,高レベルの意味的命令をピクセルレベルの視覚的ローカライゼーションに変換する。本稿では, エージェント制御におけるリアルタイム性能と動作のスムーズさを改善するために, 拡散トランスフォーマーアーキテクチャにおける一貫性ポリシーの実装を提案する。
論文参考訳（メタデータ） (2025-02-11T14:03:57Z)
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T00:39:31Z)
Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement [59.17372460692809]
本研究は、平均教師による半教師付き低照度強化(Semi-LLIE)フレームワークを提案する。照度分布を忠実に伝達するために、意味認識によるコントラスト損失を導入し、自然色による画像の強調に寄与する。また,大規模な視覚言語認識モデル(RAM)に基づく新たな知覚損失を提案し,よりリッチなテキストによる画像生成を支援する。
論文参考訳（メタデータ） (2024-09-25T04:05:32Z)
Unsupervised Image Prior via Prompt Learning and CLIP Semantic Guidance for Low-Light Image Enhancement [25.97198463881292]
本稿では,よりリッチな視覚言語CLIPを利用して,ゼロ参照低照度化手法を提案する。提案手法はタスクベース性能に関する各種データセット間で一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2024-05-19T08:06:14Z)
CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement [97.95330185793358]
低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。既存の手法では、様々な明るさ劣化からの回復の不確実性と、テクスチャと色情報の喪失という2つの課題に直面している。我々は、量子化された先行値と画像の精細化を利用して、新しいエンハンスメント手法、CodeEnhanceを提案する。
論文参考訳（メタデータ） (2024-04-08T07:34:39Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale Attention Transformer and Luminance Consistency Loss [11.585269110131659]
低照度画像強調は、薄暗い環境で収集された画像の知覚を改善することを目的としている。既存の方法では、識別された輝度情報を適応的に抽出することができず、露光過多や露光過多を容易に引き起こすことができる。 MSATrというマルチスケールアテンション変換器を提案し,光バランスの局所的・グローバル的特徴を十分に抽出し,視覚的品質を向上させる。
論文参考訳（メタデータ） (2023-12-27T10:07:11Z)
Enhancement by Your Aesthetic: An Intelligible Unsupervised Personalized Enhancer for Low-Light Images [67.14410374622699]
低照度画像のための知能的教師なしパーソナライズ・エンハンサー(iUPEnhancer)を提案する。提案したiUP-Enhancerは、これらの相関関係とそれに対応する教師なし損失関数のガイダンスを用いて訓練される。実験により,提案アルゴリズムは競合的な質的,定量的な結果が得られることを示した。
論文参考訳（メタデータ） (2022-07-15T07:16:10Z)
Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。 3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文参考訳（メタデータ） (2021-04-22T09:31:20Z)
Unsupervised Low-light Image Enhancement with Decoupled Networks [103.74355338972123]
我々は、実世界の低照度画像を教師なしで拡張する2段階のGANベースのフレームワークを学習する。提案手法は,照度向上と雑音低減の両面から,最先端の教師なし画像強調法より優れる。
論文参考訳（メタデータ） (2020-05-06T13:37:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。