論文の概要: Oneta: Multi-Style Image Enhancement Using Eigentransformation Functions
- arxiv url: http://arxiv.org/abs/2506.23547v1
- Date: Mon, 30 Jun 2025 06:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.941593
- Title: Oneta: Multi-Style Image Enhancement Using Eigentransformation Functions
- Title(参考訳): Oneta: 固有変換関数を用いたマルチスタイル画像強調
- Authors: Jiwon Kim, Soohyun Hwang, Dong-O Kim, Changsu Han, Min Kyu Park, Chang-Su Kim,
- Abstract要約: マルチスタイル画像強調のための最初のアルゴリズムであるOnetaが提案されている。
変換関数(TF)による強度向上と色補正行列(CCM)による色補正である。
- 参考スコア(独自算出の注目度): 20.459710796298722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The first algorithm, called Oneta, for a novel task of multi-style image enhancement is proposed in this work. Oneta uses two point operators sequentially: intensity enhancement with a transformation function (TF) and color correction with a color correction matrix (CCM). This two-step enhancement model, though simple, achieves a high performance upper bound. Also, we introduce eigentransformation function (eigenTF) to represent TF compactly. The Oneta network comprises Y-Net and C-Net to predict eigenTF and CCM parameters, respectively. To support $K$ styles, Oneta employs $K$ learnable tokens. During training, each style token is learned using image pairs from the corresponding dataset. In testing, Oneta selects one of the $K$ style tokens to enhance an image accordingly. Extensive experiments show that the single Oneta network can effectively undertake six enhancement tasks -- retouching, image signal processing, low-light image enhancement, dehazing, underwater image enhancement, and white balancing -- across 30 datasets.
- Abstract(参考訳): 本研究では,マルチスタイル画像強調のための最初のアルゴリズムであるOnetaを提案する。
変換関数(TF)による強度向上と色補正行列(CCM)による色補正である。
この2段階強化モデルは単純ではあるが、高性能な上界を実現する。
また、TFをコンパクトに表現するために固有変換関数(固有TF)を導入する。
Oneta ネットワークは Y-Net と C-Net から構成され、それぞれ固有TF と CCM のパラメータを予測する。
K$スタイルをサポートするために、OnetaはK$学習可能なトークンを使用している。
トレーニング中、各スタイルトークンは、対応するデータセットからイメージペアを使用して学習される。
テストでは、Onetaは画像を強化するために$K$スタイルトークンの1つを選択する。
大規模な実験によると、1つのOnetaネットワークは、30のデータセットで、6つの強化タスク(リタッチ、画像信号処理、低照度画像強調、脱ハージング、水中画像強調、ホワイトバランス)を効果的に実行可能である。
関連論文リスト
- Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - RefineStyle: Dynamic Convolution Refinement for StyleGAN [15.230430037135017]
StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T15:01:30Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - MIMT: Multi-Illuminant Color Constancy via Multi-Task Local Surface and
Light Color Learning [42.72878256074646]
単一入力画像における複数の光色を割引するマルチタスク学習手法を提案する。
複数の光色条件下で局所的な表面/光色をより正確に表現するために,我々は新しいマルチタスク学習フレームワークを設計する。
本モデルでは,マルチイルミナントデータセット上で,最先端のマルチイルミナントカラーコンステンシー法と比較して47.1%の改善を実現している。
論文 参考訳(メタデータ) (2022-11-16T09:00:20Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Controllable Image Enhancement [66.18525728881711]
いくつかのパラメータを制御して、複数のスタイルで高品質な画像を生成できる半自動画像強調アルゴリズムを提案する。
エンコーダ・デコーダフレームワークは、リタッチスキルを潜在コードにエンコードし、イメージ信号処理機能のパラメータにデコードする。
論文 参考訳(メタデータ) (2022-06-16T23:54:53Z) - SCSNet: An Efficient Paradigm for Learning Simultaneously Image
Colorization and Super-Resolution [39.77987463287673]
画像のカラー化と超解像(SCS)を同時に行うための効率的なパラダイムを提案する。
提案手法は2つの部分から構成される: プラグアンドプレイのemphPyramid Valve Cross Attention (PVCAttn)モジュールを用いた色情報学習用カラー化ブランチ。
我々のSCSNetは、実用上よりフレキシブルな自動モードと参照モードの両方をサポートしている。
論文 参考訳(メタデータ) (2022-01-12T08:59:12Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。