論文の概要: Bayesian Optimization for Controlled Image Editing via LLMs
- arxiv url: http://arxiv.org/abs/2502.18116v2
- Date: Wed, 26 Feb 2025 06:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 11:34:03.334511
- Title: Bayesian Optimization for Controlled Image Editing via LLMs
- Title(参考訳): LLMによる制御画像編集のためのベイズ最適化
- Authors: Chengkun Cai, Haoliang Liu, Xu Zhao, Zhongyu Jiang, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang, Serge Belongie, Lei Li,
- Abstract要約: BayesGenieは、大規模言語モデルとベイズ最適化を統合する、既定のアプローチである。
本手法により,手動の領域マークを使わずに,自然言語による画像の修正が可能となる。
筆者らのフレームワークは,編集精度と意味保存の両面で,既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 37.430396755248104
- License:
- Abstract: In the rapidly evolving field of image generation, achieving precise control over generated content and maintaining semantic consistency remain significant limitations, particularly concerning grounding techniques and the necessity for model fine-tuning. To address these challenges, we propose BayesGenie, an off-the-shelf approach that integrates Large Language Models (LLMs) with Bayesian Optimization to facilitate precise and user-friendly image editing. Our method enables users to modify images through natural language descriptions without manual area marking, while preserving the original image's semantic integrity. Unlike existing techniques that require extensive pre-training or fine-tuning, our approach demonstrates remarkable adaptability across various LLMs through its model-agnostic design. BayesGenie employs an adapted Bayesian optimization strategy to automatically refine the inference process parameters, achieving high-precision image editing with minimal user intervention. Through extensive experiments across diverse scenarios, we demonstrate that our framework significantly outperforms existing methods in both editing accuracy and semantic preservation, as validated using different LLMs including Claude3 and GPT-4.
- Abstract(参考訳): 画像生成の急速に発展する分野では、生成したコンテンツを正確に制御し、セマンティックな一貫性を維持することは、特に接地技術とモデル微調整の必要性に関して重要な制限を保っている。
これらの課題に対処するため,我々は,Large Language Models (LLMs) と Bayesian Optimization を統合し,高精度でユーザフレンドリな画像編集を容易にする,オフザシェルフアプローチである BayesGenie を提案する。
本手法では,画像の意味的整合性を保ちながら,手動の領域マークを使わずに,自然言語記述による画像の修正が可能となる。
事前学習や微調整を必要とする既存の手法とは異なり,本手法はモデルに依存しない設計により,様々なLCMに対して顕著な適応性を示す。
BayesGenieは、推論プロセスパラメータを自動的に洗練し、最小限のユーザ介入で高精度な画像編集を実現するために、適応されたベイズ最適化戦略を採用している。
様々なシナリオにわたる広範な実験を通じて,我々のフレームワークは,Claude3 や GPT-4 などの異なる LLM を用いて,編集精度と意味保存の両面で,既存の手法を著しく上回っていることを実証した。
関連論文リスト
- PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery [10.594261300488546]
PIXELSと呼ばれる,市販拡散モデルを用いたプログレッシブな例駆動編集のための新しいフレームワークを提案する。
PIXELSは編集のきめ細かい制御を提供し、ピクセルや領域レベルでの調整を可能にする。
我々は,PIXELSが高品質な編集を効率よく行うことを実証し,定量化と人的評価に顕著な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-01-16T20:26:30Z) - AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing [42.73883397041092]
本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。
本研究では,入力画像の全体構造を保存するための自己誘導手法について検討する。
本稿では,人間の評価と定量的分析を通じて,提案手法が望ましい編集を可能にすることを示す。
論文 参考訳(メタデータ) (2024-09-02T15:21:46Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - LASPA: Latent Spatial Alignment for Fast Training-free Single Image Editing [43.20273464866661]
拡散モデルを用いた実画像のテキスト編集のためのトレーニング不要な手法を提案する。
参照画像を用いて拡散過程が空間的誘導にどう影響するかを実証し,意味的コヒーレントな編集に繋がることを示す。
提案手法は,ユーザスタディにおいて62-71%の選好を達成し,モデルベース編集強度と画像保存スコアを大幅に改善する。
論文 参考訳(メタデータ) (2024-03-19T09:47:08Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。