論文の概要: Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models
- arxiv url: http://arxiv.org/abs/2505.08622v1
- Date: Tue, 13 May 2025 14:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.62139
- Title: Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models
- Title(参考訳): ビジュアルガイドによるデコーディング - 言語モデルによるグラディエントフリーのハードプロンプトインバージョン
- Authors: Donghoon Kim, Minji Bae, Kyuhong Shim, Byonghyo Shim,
- Abstract要約: Visually Guided Decoding(VGD)は、大規模言語モデルとCLIPベースのガイダンスを活用して、一貫性とセマンティックに整合したプロンプトを生成する、勾配のないアプローチである。
我々の実験は、VGDが既存のプロンプトインバージョン技術よりも理解しやすく、文脈的に関係のあるプロンプトを生成することを実証している。
- 参考スコア(独自算出の注目度): 24.203389418820123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generative models like DALL-E and Stable Diffusion have revolutionized visual content creation across various applications, including advertising, personalized media, and design prototyping. However, crafting effective textual prompts to guide these models remains challenging, often requiring extensive trial and error. Existing prompt inversion approaches, such as soft and hard prompt techniques, are not so effective due to the limited interpretability and incoherent prompt generation. To address these issues, we propose Visually Guided Decoding (VGD), a gradient-free approach that leverages large language models (LLMs) and CLIP-based guidance to generate coherent and semantically aligned prompts. In essence, VGD utilizes the robust text generation capabilities of LLMs to produce human-readable prompts. Further, by employing CLIP scores to ensure alignment with user-specified visual concepts, VGD enhances the interpretability, generalization, and flexibility of prompt generation without the need for additional training. Our experiments demonstrate that VGD outperforms existing prompt inversion techniques in generating understandable and contextually relevant prompts, facilitating more intuitive and controllable interactions with text-to-image models.
- Abstract(参考訳): DALL-EやStable Diffusionのようなテキストから画像への生成モデルは、広告、パーソナライズされたメディア、デザインプロトタイピングなど、さまざまなアプリケーションで視覚コンテンツの作成に革命をもたらした。
しかし、これらのモデルをガイドするための効果的なテキストプロンプトを作成することは、しばしば広範囲な試行錯誤を必要としている。
ソフトプロンプト法やハードプロンプト法のような既存のプロンプトインバージョン手法は、限定的な解釈可能性や非コヒーレントなプロンプト生成のため、それほど効果的ではない。
これらの問題に対処するために,大規模言語モデル(LLM)とCLIPベースのガイダンスを活用する勾配のないアプローチであるVisually Guided Decoding (VGD)を提案する。
本質的には、VGDはLLMの頑健なテキスト生成機能を利用して、人間の読みやすいプロンプトを生成する。
さらに、ユーザが指定した視覚概念との整合性を確保するためにCLIPスコアを利用することで、VGDは追加のトレーニングを必要とせずに、プロンプト生成の解釈可能性、一般化、柔軟性を向上させる。
我々の実験は,VGDが既存のインプロンプト・インバージョン技術よりも理解しやすく,文脈的に関係のあるプロンプトを生成することを示し,テキスト・ツー・イメージ・モデルとのより直感的で制御しやすくする。
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Coherent Zero-Shot Visual Instruction Generation [15.0521272616551]
本稿では,視覚的指示を生成する際の課題に対処するための,簡単な学習不要のフレームワークを提案する。
本手法は,視覚的指示が視覚的に魅力的であることを保証するために,テキスト理解と画像生成を体系的に統合する。
実験の結果,コヒーレントで視覚的な指示を可視化できることがわかった。
論文 参考訳(メタデータ) (2024-06-06T17:59:44Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。