論文の概要: White-Balance First, Adjust Later: Cross-Camera Color Constancy via Vision-Language Evaluation
- arxiv url: http://arxiv.org/abs/2605.19613v1
- Date: Tue, 19 May 2026 09:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.263737
- Title: White-Balance First, Adjust Later: Cross-Camera Color Constancy via Vision-Language Evaluation
- Title(参考訳): White-Balance First, Adjust Later: Vision-Language Evaluationによるクロスカメラカラーコンステレーション
- Authors: Shuwei Li, Lei Tan, Robby T. Tan,
- Abstract要約: VLM-CCは、反復的な精錬プロセスとして色の一貫性を定式化するフィードバック誘導フレームワークである。
直接RGB推定をVLM誘導の知覚フィードバックに置き換えることで、VLM-CCはクロスカメラカラーの不安定性を実現する。
- 参考スコア(独自算出の注目度): 37.38870850999494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Color constancy aims to keep object colors consistent under varying illumination. Cross-camera generalization in color constancy remains challenging because learning-based models often overfit to the color response characteristics of the training camera, resulting in degraded performance on images captured by other cameras. We propose VLM-CC, a feedback-guided framework that formulates color constancy as an iterative refinement process. Instead of directly estimating the illuminant from raw input, VLM-CC performs iterative correction driven by vision-language model (VLM)-based evaluation. At each iteration, the image is white-balanced using the current estimate and converted to pseudo-sRGB. A lightweight LoRA-tuned VLM then assesses the corrected image, identifying the dominant residual color cast and providing qualitative feedback. This feedback is mapped to a residual illumination direction (red, green, or blue) and used to update the illuminant estimate until convergence. Our key idea is to reframe color constancy as an iterative perceptual feedback problem, leveraging VLM evaluation instead of direct RGB regression. By replacing direct RGB estimation with VLM-guided perceptual feedback, VLM-CC achieves state-of-the-art robustness in cross-camera color constancy across multiple datasets. Code will be available at https://github.com/NothingIknow/VLM-CC.
- Abstract(参考訳): 色の一貫性は、様々な照明の下でオブジェクトの色を一貫性を保つことを目的としている。
学習ベースのモデルはトレーニングカメラの色応答特性に過度に適合することが多く、結果として他のカメラが捉えた画像のパフォーマンスが低下するため、カラーコンスタンスにおけるクロスカメラの一般化は依然として困難である。
VLM-CCは,色濃度を反復的精錬プロセスとして定式化するフィードバック誘導型フレームワークである。
VLM-CCは、生の入力から照度を直接推定する代わりに、視覚言語モデル(VLM)に基づく評価により反復補正を行う。
各イテレーションでは、現在の推定値を使用して画像がホワイトバランスされ、擬似sRGBに変換される。
ライトウェイトなLORA調整VLMは、補正された画像を評価し、主要カラーキャストを特定し、質的なフィードバックを提供する。
このフィードバックは、残光方向(赤、緑、青)にマッピングされ、収束するまで照度推定を更新するために使用される。
我々のキーとなる考え方は、直接RGB回帰の代わりにVLM評価を利用する反復的な知覚フィードバック問題としてカラーコンスタントを再構成することである。
直接RGB推定をVLM誘導の知覚フィードバックに置き換えることで、VLM-CCは複数のデータセットにまたがるクロスカメラカラーコンスタントにおける最先端のロバスト性を実現する。
コードはhttps://github.com/NothingIknow/VLM-CCで入手できる。
関連論文リスト
- Allegory of the Cave: Measurement-Grounded Vision-Language Learning [10.9958900639469]
基礎となるカメラ計測に近づいたときの接地効果について検討した。
PRISM-VLとして,測位型視覚言語学習を定式化し,インスタンス化する。
PRISM-VL-8B は 0.6120 BLEU, 0.4571 ROUGE-L, 82.66% LLM-Judge に到達し、RGB Qwen3-VL-8B ベースラインを +0.1074 BLEU, +0.1071 ROUGE-L, +4.46 ポイント改善した。
論文 参考訳(メタデータ) (2026-05-12T08:09:46Z) - RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching [55.03149221192589]
本稿では,RGBとRAW表現のギャップを埋めるためにRAW-Flowという新しいフレームワークを提案する。
また、階層的なRGB機能をフロー推定プロセスに注入する、大規模コンテキストガイダンスモジュールも導入する。
RAW-Flowは、定量的にも視覚的にも最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2026-01-28T08:27:38Z) - Histogram Assisted Quality Aware Generative Model for Resolution Invariant NIR Image Colorization [0.9064664319018063]
本稿では,分解能不変なNIR-to-RGBカラー化のための統一生成モデルHAQAGenを提案する。
提案モデルでは, (i) 異なるヒストグラムマッチング, 知覚的画像品質測定, テクスチャ情報を保存するための特徴に基づく類似性を通じて, グローバルな色統計を整合させる複合的損失項を導入する。
品質を犠牲にすることなく高分解能翻訳を可能にする適応分解能推論エンジンを導入する。
論文 参考訳(メタデータ) (2026-01-03T07:46:59Z) - Leveraging Color Channel Independence for Improved Unsupervised Object Detection [7.030688465389997]
コンピュータビジョンにおける教師なし学習において,RGB画像が最適な色空間であるという一般的な仮定に挑戦する。
新たなカラーチャネルの予測を行う場合には,モデルの改善が期待できる。
合成色空間の使用は、基本的に計算オーバーヘッドを伴わずに実装することができる。
論文 参考訳(メタデータ) (2024-12-19T18:28:37Z) - Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images [8.789674502390378]
本稿では、ビュー不変な高密度記述子学習のためのCCL(Cycle-Cor correspondingence Loss)を紹介する。
鍵となるアイデアは、新しい画像に対する予測を使って、有効なピクセル対応を自律的に検出することである。
評価の結果、他の自己教師付きRGB専用手法よりも優れており、教師付き手法の性能にアプローチしていることがわかった。
論文 参考訳(メタデータ) (2024-06-18T09:44:56Z) - Learning RAW-to-sRGB Mappings with Inaccurately Aligned Supervision [76.41657124981549]
本稿では,画像アライメントとRAW-to-sRGBマッピングのための共同学習モデルを提案する。
実験の結果,本手法はZRRおよびSR-RAWデータセットの最先端に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-08-18T12:41:36Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - The Cube++ Illumination Estimation Dataset [50.58610459038332]
本稿では,新しい照明推定データセットを提案する。
照明色が既知の4890の画像と、追加のセマンティックデータで構成されている。
データセットは、単一または2つの照度推定を実行するメソッドのトレーニングとテストに使用することができる。
論文 参考訳(メタデータ) (2020-11-19T18:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。