論文の概要: AceTone: Bridging Words and Colors for Conditional Image Grading
- arxiv url: http://arxiv.org/abs/2604.00530v1
- Date: Wed, 01 Apr 2026 06:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.866533
- Title: AceTone: Bridging Words and Colors for Conditional Image Grading
- Title(参考訳): AceTone:条件付き画像表示のための単語と色をブリッジする
- Authors: Tianren Ma, Mingxiang Liao, Xijin Zhang, Qixiang Ye,
- Abstract要約: AceToneは、統一されたフレームワーク内でマルチモーダル条件付きカラーグレーディングをサポートする最初のアプローチである。
AceToneは、生成色変換タスクとしてグレーディングを定式化し、モデルがテキストプロンプトや参照画像に条件付けされた3D-LUTを直接生成する。
実験の結果、AceToneはテキスト誘導と参照誘導の両方で最先端のパフォーマンスを実現し、LPIPSを最大50%改善した。
- 参考スコア(独自算出の注目度): 37.35090004512214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Color affects how we interpret image style and emotion. Previous color grading methods rely on patch-wise recoloring or fixed filter banks, struggling to generalize across creative intents or align with human aesthetic preferences. In this study, we propose AceTone, the first approach that supports multimodal conditioned color grading within a unified framework. AceTone formulates grading as a generative color transformation task, where a model directly produces 3D-LUTs conditioned on text prompts or reference images. We develop a VQ-VAE based tokenizer which compresses a $3\times32^3$ LUT vector to 64 discrete tokens with $ΔE<2$ fidelity. We further build a large-scale dataset, AceTone-800K, and train a vision-language model to predict LUT tokens, followed by reinforcement learning to align outputs with perceptual fidelity and aesthetics. Experiments show that AceTone achieves state-of-the-art performance on both text-guided and reference-guided grading tasks, improving LPIPS by up to 50% over existing methods. Human evaluations confirm that AceTone's results are visually pleasing and stylistically coherent, demonstrating a new pathway toward language-driven, aesthetic-aligned color grading.
- Abstract(参考訳): 色は、イメージスタイルと感情の解釈方法に影響する。
以前のカラーグレーディング方法はパッチワイズや固定されたフィルターバンクに依存しており、創造的な意図を一般化したり、人間の美的好みに合わせるのに苦労している。
本研究では,マルチモーダル条件付きカラーグレーディングをサポートする最初のアプローチであるAceToneを提案する。
AceToneは、生成色変換タスクとしてグレーディングを定式化し、モデルがテキストプロンプトや参照画像に条件付けされた3D-LUTを直接生成する。
我々は、VQ-VAEベースのトークン化器を開発し、$ΔE<2$fidelityで64個の離散トークンに$3\times32^3$ LUTベクトルを圧縮する。
さらに、大規模データセットであるAceTone-800Kを構築し、LUTトークンを予測するために視覚言語モデルをトレーニングし、続いて、出力を知覚的忠実度と美学に整合させる強化学習を行った。
実験の結果、AceToneはテキスト誘導と参照誘導の両方で最先端のパフォーマンスを実現し、LPIPSを最大50%改善した。
人間の評価は、AceToneの結果が視覚的に快く、スタイリスティックに整合していることを確認し、言語駆動で美的整合性のあるカラーグレーディングへの新たな経路を示す。
関連論文リスト
- Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [62.215875006311876]
本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。
Our Style Attributes Disentanglement approach (SADis)は、より正確でカスタマイズ可能な、スタイリングされた画像生成ソリューションを提供する。
WikiArtとStyleDropのデータセットの画像に対する実験は、SADisがDisIGタスクの最先端化方法を上回ることを実証している。
論文 参考訳(メタデータ) (2025-03-18T14:10:43Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Distilling Style from Image Pairs for Global Forward and Inverse Tone
Mapping [17.692674513446153]
このスタイルに関する情報は画像対の集合から抽出され、2次元または3次元のベクトルに符号化されることを示す。
これらのネットワークは,低次元空間における画像スタイルの正規化において,PCAやVAEよりも有効であることを示す。
論文 参考訳(メタデータ) (2022-09-30T01:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。