Fugu-MT 論文翻訳(概要): CLIPtone: Unsupervised Learning for Text-based Image Tone Adjustment

論文の概要: CLIPtone: Unsupervised Learning for Text-based Image Tone Adjustment

arxiv url: http://arxiv.org/abs/2404.01123v1
Date: Mon, 1 Apr 2024 13:57:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:15:37.802645
Title: CLIPtone: Unsupervised Learning for Text-based Image Tone Adjustment
Title（参考訳）: CLIPtone: テキストベースのイメージトーン調整のための教師なし学習
Authors: Hyeongmin Lee, Kyoungkook Kang, Jungseul Ok, Sunghyun Cho,
Abstract要約: テキストベースの画像トーン調整手法であるCLIPtoneについて,教師なし学習に基づくアプローチを提案する。提案手法の有効性は,ユーザスタディを含む総合的な実験を通じて実証される。
参考スコア（独自算出の注目度）: 23.36770607997754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent image tone adjustment (or enhancement) approaches have predominantly adopted supervised learning for learning human-centric perceptual assessment. However, these approaches are constrained by intrinsic challenges of supervised learning. Primarily, the requirement for expertly-curated or retouched images escalates the data acquisition expenses. Moreover, their coverage of target style is confined to stylistic variants inferred from the training data. To surmount the above challenges, we propose an unsupervised learning-based approach for text-based image tone adjustment method, CLIPtone, that extends an existing image enhancement method to accommodate natural language descriptions. Specifically, we design a hyper-network to adaptively modulate the pretrained parameters of the backbone model based on text description. To assess whether the adjusted image aligns with the text description without ground truth image, we utilize CLIP, which is trained on a vast set of language-image pairs and thus encompasses knowledge of human perception. The major advantages of our approach are three fold: (i) minimal data collection expenses, (ii) support for a range of adjustments, and (iii) the ability to handle novel text descriptions unseen in training. Our approach's efficacy is demonstrated through comprehensive experiments, including a user study.
Abstract（参考訳）: 最近のイメージトーン調整(または強化)アプローチは、主に人中心の知覚評価を学ぶために教師付き学習を採用してきた。しかし、これらのアプローチは教師あり学習の本質的な課題によって制約されている。主に、専門家が作成または修正した画像の要求は、データ取得コストを増大させる。さらに、ターゲットスタイルのカバレッジは、トレーニングデータから推測されるスタイリスティックなバリエーションに限定される。以上の課題を克服するため,テキストベースの画像トーン調整手法であるCLIPtoneについて,教師なし学習に基づくアプローチを提案する。具体的には,テキスト記述に基づくバックボーンモデルの事前学習パラメータを適応的に調整するハイパーネットワークを設計する。調整された画像が真実を示さずにテキスト記述と一致しているかを評価するために,CLIPを用いて言語と画像のペアの膨大な集合を訓練し,人間の知覚に関する知識を包含する。私たちのアプローチの大きな利点は3つあります。 (i)データ収集費用の最小化 (二)調整の範囲のサポート、及び (三訓練において目立たない新しい文章の記述を扱う能力。) 提案手法の有効性は,ユーザスタディを含む総合的な実験を通じて実証される。

関連論文リスト

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP [22.33658954569737]
我々は、IGT(Image-Guided-Text)コンポーネントとTGI(Text-Guided-Image)コンポーネントを導入し、相互誘導機構を構築する。広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。提案する改良型TIMO-Sは,最高のトレーニング要求手法を約100倍の時間コストで0.33%以上越えることが可能である。
論文参考訳（メタデータ） (2024-12-16T02:03:45Z)
Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文参考訳（メタデータ） (2024-12-09T18:51:05Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文参考訳（メタデータ） (2024-05-09T15:39:54Z)
Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文参考訳（メタデータ） (2024-01-24T17:35:38Z)
Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文参考訳（メタデータ） (2023-12-14T13:31:01Z)
Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文参考訳（メタデータ） (2023-05-09T03:10:15Z)
CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。 CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文参考訳（メタデータ） (2022-10-19T08:06:39Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文参考訳（メタデータ） (2022-01-31T00:39:37Z)
Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model [168.04947140367258]
本稿では,テキスト駆動型画像操作のための新しいフレームワーク,すなわち予測,予防,評価(PPE)を提案する。提案手法は,大規模事前学習型視覚言語モデルCLIPのパワーを利用して,ターゲットにアプローチする。大規模な実験により,提案したPEPフレームワークは,最新のStyleCLIPベースラインよりもはるかに定量的かつ定性的な結果が得られることが示された。
論文参考訳（メタデータ） (2021-11-26T06:49:26Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。本稿では,CLIP-Adapterを提案する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。