論文の概要: Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity
- arxiv url: http://arxiv.org/abs/2603.10990v1
- Date: Wed, 11 Mar 2026 17:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.075159
- Title: Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity
- Title(参考訳): あまりにも鮮明すぎる - 色質のベンチマークとキャリブレーション
- Authors: Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei,
- Abstract要約: 現実的な世代における色忠実度を客観的に評価するために、色忠実度データセット(CFD)と色忠実度メトリック(CFM)を提案する。
CFDには1,3M以上の実画像と合成画像が含まれており、CFMは知覚色忠実度を学習するためにマルチモーダルエンコーダを使用している。
本研究では,空間的時間的誘導尺度を適応的に調整し,色信頼性を向上させる訓練不要なカラーフィデリティ精細化(CFR)を提案する。
- 参考スコア(独自算出の注目度): 55.22847424233036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) generation have greatly improved visual quality, yet producing images that appear visually authentic to real-world photography remains challenging. This is partly due to biases in existing evaluation paradigms: human ratings and preference-trained metrics often favor visually vivid images with exaggerated saturation and contrast, which make generations often too vivid to be real even when prompted for realistic-style images. To address this issue, we present Color Fidelity Dataset (CFD) and Color Fidelity Metric (CFM) for objective evaluation of color fidelity in realistic-style generations. CFD contains over 1.3M real and synthetic images with ordered levels of color realism, while CFM employs a multimodal encoder to learn perceptual color fidelity. In addition, we propose a training-free Color Fidelity Refinement (CFR) that adaptively modulates spatial-temporal guidance scale in generation, thereby enhancing color authenticity. Together, CFD supports CFM for assessment, whose learned attention further guides CFR to refine T2I fidelity, forming a progressive framework for assessing and improving color fidelity in realistic-style T2I generation. The dataset and code are available at https://github.com/ZhengyaoFang/CFM.
- Abstract(参考訳): 近年のテキスト・トゥ・イメージ(T2I)生成の進歩は視覚的品質を大幅に向上させたが、現実の写真に対して視覚的に本物に見える画像はいまだに困難である。
人間の評価と嗜好訓練された指標は、誇張された彩度とコントラストを持つ視覚的に鮮やかなイメージを好むことが多く、現実的なイメージに誘惑されても、世代は現実的になりすぎる。
この問題に対処するために、現実的な世代における色忠実度を客観的に評価するために、色忠実度データセット(CFD)と色忠実度メトリック(CFM)を提示する。
CFDには1,3M以上の実画像と合成画像が含まれており、CFMは知覚色忠実度を学習するためにマルチモーダルエンコーダを使用している。
さらに,空間的空間的誘導尺度を適応的に調整し,色認証を向上する,トレーニング不要なカラーフィデリティ精細化(CFR)を提案する。
CFDはCFMを併用して評価をサポートし、その学習的注目によりCFRはT2Iの忠実度を洗練させ、現実的なT2I生成における色忠実度の評価と改善のための進歩的な枠組みを形成する。
データセットとコードはhttps://github.com/ZhengyaoFang/CFM.comで公開されている。
関連論文リスト
- SemiNFT: Learning to Transfer Presets from Imitation to Appreciation via Hybrid-Sample Reinforcement Learning [10.278887297409284]
本研究では,人体芸術訓練の軌跡を反映した拡散トランスフォーマーを用いたリタッチフレームワークを提案する。
SemiNFTはまず、基本的な構造保存とカラーマッピングの技術を身につけるために、ペア三つ組で教えられている。
強化学習の段階では, 審美的探索と構造的レビューを両立させるハイブリッドオンラインオフライン報酬機構を設計する。
論文 参考訳(メタデータ) (2026-02-09T12:20:33Z) - Wavelet-Domain Masked Image Modeling for Color-Consistent HDR Video Reconstruction [69.35623794013152]
高ダイナミックレンジ(LDR)ビデオ再構成は、LDRビデオから微妙な明るさ、色、詳細を復元することを目的としている。
既存の方法は、しばしば色の不正確さと時間的不整合に悩まされる。
We propose WMNet, a novel HDR video reconstruction network that leverageing Wavelet domain Masked Image Modeling。
論文 参考訳(メタデータ) (2026-02-07T06:19:23Z) - GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation Models [61.786094845872576]
GenColorBenchは、テキストから画像までのカラー生成のための、最初の総合的なベンチマークである。
I SCC-NBS や CSS3/X11 などのカラーシステムにも採用されている。
400以上の色をカバーする44K色のプロンプトによって、知覚的および自動評価を通じてモデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2025-10-23T14:12:55Z) - Structure-preserving Feature Alignment for Old Photo Colorization [19.011270929834495]
SFAC(Structure-serving Feature Alignment Colorizer)と呼ばれる新しいCNNベースのアルゴリズムを提案する。
SFACは、古い写真色付けのための2つの画像のみをトレーニングし、ビッグデータへの依存を排除している。
我々の主な目的は、2つの画像間のセマンティック対応を確立することであり、セマンティック関連オブジェクトが類似した色を持つことを保証することである。
論文 参考訳(メタデータ) (2025-08-18T02:10:40Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - DDColor: Towards Photo-Realistic Image Colorization via Dual Decoders [19.560271615736212]
DDColorは画像カラー化のためのデュアルデコーダを備えたエンドツーエンドの手法である。
我々のアプローチには、ピクセルデコーダとクエリベースのカラーデコーダが含まれる。
我々の2つのデコーダは、色とマルチスケールの意味表現の相関を確立するために協力する。
論文 参考訳(メタデータ) (2022-12-22T11:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。