論文の概要: Adapting Large VLMs with Iterative and Manual Instructions for Generative Low-light Enhancement
- arxiv url: http://arxiv.org/abs/2507.18064v1
- Date: Thu, 24 Jul 2025 03:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.928889
- Title: Adapting Large VLMs with Iterative and Manual Instructions for Generative Low-light Enhancement
- Title(参考訳): 低照度生成のための反復的および手動命令による大型VLMの適応
- Authors: Xiaoran Sun, Liyan Wang, Cong Wang, Yeying Jin, Kin-man Lam, Zhixun Su, Yang Yang, Jinshan Pan,
- Abstract要約: たいていの低照度画像強調法は、事前訓練されたモデル事前、低照度入力、またはその両方に依存している。
提案する VLM-IMI は,大規模視覚言語モデルに反復的および手動命令を付加した新しいフレームワークである。
VLM-IMIは、所望のノーマルライトコンテンツのテキスト記述をエンハンスメントキューとして組み込んで、意味的にインフォメーションされた復元を可能にする。
- 参考スコア(独自算出の注目度): 41.66776033752888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing low-light image enhancement (LLIE) methods rely on pre-trained model priors, low-light inputs, or both, while neglecting the semantic guidance available from normal-light images. This limitation hinders their effectiveness in complex lighting conditions. In this paper, we propose VLM-IMI, a novel framework that leverages large vision-language models (VLMs) with iterative and manual instructions (IMIs) for LLIE. VLM-IMI incorporates textual descriptions of the desired normal-light content as enhancement cues, enabling semantically informed restoration. To effectively integrate cross-modal priors, we introduce an instruction prior fusion module, which dynamically aligns and fuses image and text features, promoting the generation of detailed and semantically coherent outputs. During inference, we adopt an iterative and manual instruction strategy to refine textual instructions, progressively improving visual quality. This refinement enhances structural fidelity, semantic alignment, and the recovery of fine details under extremely low-light conditions. Extensive experiments across diverse scenarios demonstrate that VLM-IMI outperforms state-of-the-art methods in both quantitative metrics and perceptual quality. The source code is available at https://github.com/sunxiaoran01/VLM-IMI.
- Abstract(参考訳): 既存の低照度画像強調法(LLIE)の手法は、通常照度画像から得られるセマンティックガイダンスを無視しつつ、事前訓練済みのモデル事前、低照度入力、またはその両方に依存している。
この制限は、複雑な照明条件における効果を妨げる。
本稿では,大規模な視覚言語モデル(VLM)と反復的手動命令(IMI)を併用したLLIE用フレームワークであるVLM-IMIを提案する。
VLM-IMIは、所望のノーマルライトコンテンツのテキスト記述をエンハンスメントキューとして組み込んで、意味的にインフォメーションされた復元を可能にする。
画像とテキストの特徴を動的に整列・融合し,詳細かつセマンティックに整合した出力を生成する命令事前融合モジュールを提案する。
推論中、テキストの指示を洗練し、視覚的品質を徐々に改善するために反復的かつ手動的な指示戦略を採用する。
この改良により、構造的忠実度、セマンティックアライメント、極低照度条件下での細部回復が促進される。
様々なシナリオにわたる大規模な実験により、VLM-IMIは定量的メトリクスと知覚的品質の両方において最先端の手法より優れていることが示された。
ソースコードはhttps://github.com/sunxiaoran01/VLM-IMIで公開されている。
関連論文リスト
- SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement [58.79901582809091]
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
正確な照明復元を可能にする空間適応照明誘導変圧器フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:38:56Z) - Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models [56.84206059390887]
textbfLightDは、視覚・言語事前学習モデルのための自然な逆転サンプルを生成する新しいフレームワークである。
LightDは、シーンセマンティクスとの摂動を確実にしながら、最適化空間を拡張します。
論文 参考訳(メタデータ) (2025-05-30T05:30:02Z) - Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。
本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文 参考訳(メタデータ) (2025-03-17T09:31:14Z) - TSCnet: A Text-driven Semantic-level Controllable Framework for Customized Low-Light Image Enhancement [30.498816319802412]
そこで本研究では,アクセプティブ駆動,セマンティックレベル,量的明るさ調整による照明制御をカスタマイズする,新たな光強調タスクとフレームワークを提案する。
ベンチマークデータセットの実験結果は、可視性を高め、自然な色バランスを維持し、アーティファクトを作成することなく詳細を増幅するフレームワークの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-11T08:30:50Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - Natural Language Supervision for Low-light Image Enhancement [0.0]
画像に対応するテキストから特徴マップを学習する自然言語スーパービジョン(NLS)戦略を導入する。
また、画像領域と文語との接続を組み込んだテキスト誘導条件設定機構(TCM)を設計する。
様々なレベルの画像やテキスト情報から特徴を効果的に識別し、マージするために、情報融合注意(IFA)モジュールを設計する。
論文 参考訳(メタデータ) (2025-01-11T13:53:10Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement [97.95330185793358]
低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。
既存の手法では、様々な明るさ劣化からの回復の不確実性と、テクスチャと色情報の喪失という2つの課題に直面している。
我々は、量子化された先行値と画像の精細化を利用して、新しいエンハンスメント手法、CodeEnhanceを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:34:39Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。