論文の概要: Fast Prompt Alignment for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2412.08639v1
- Date: Wed, 11 Dec 2024 18:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:05.730744
- Title: Fast Prompt Alignment for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のための高速プロンプトアライメント
- Authors: Khalil Mrini, Hanlin Lu, Linjie Yang, Weilin Huang, Heng Wang,
- Abstract要約: 本稿では,FPA(Fast Prompt Alignment)を提案する。
FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。
FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
- 参考スコア(独自算出の注目度): 28.66112701912297
- License:
- Abstract: Text-to-image generation has advanced rapidly, yet aligning complex textual prompts with generated visuals remains challenging, especially with intricate object relationships and fine-grained details. This paper introduces Fast Prompt Alignment (FPA), a prompt optimization framework that leverages a one-pass approach, enhancing text-to-image alignment efficiency without the iterative overhead typical of current methods like OPT2I. FPA uses large language models (LLMs) for single-iteration prompt paraphrasing, followed by fine-tuning or in-context learning with optimized prompts to enable real-time inference, reducing computational demands while preserving alignment fidelity. Extensive evaluations on the COCO Captions and PartiPrompts datasets demonstrate that FPA achieves competitive text-image alignment scores at a fraction of the processing time, as validated through both automated metrics (TIFA, VQA) and human evaluation. A human study with expert annotators further reveals a strong correlation between human alignment judgments and automated scores, underscoring the robustness of FPA's improvements. The proposed method showcases a scalable, efficient alternative to iterative prompt optimization, enabling broader applicability in real-time, high-demand settings. The codebase is provided to facilitate further research: https://github.com/tiktok/fast_prompt_alignment
- Abstract(参考訳): テキスト・ツー・イメージ生成は急速に進歩しているが、複雑なテキスト・プロンプトと生成した視覚情報との整合性は依然として困難であり、特に複雑なオブジェクト関係やきめ細かい詳細が問題となっている。
本稿では,OPT2Iのような現行手法に典型的な反復的オーバーヘッドを伴わずに,ワンパスアプローチを利用した高速プロンプトアライメント(FPA)を提案する。
FPAは単一命令のプロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後、最適化されたプロンプトで微調整やテキスト内学習を行い、リアルタイム推論を実現し、アライメントの忠実さを維持しながら計算要求を減らした。
COCO CaptionsとPartiPromptsデータセットの大規模な評価は、FPAが自動メトリクス(TIFA、VQA)と人的評価の両方で検証されるように、処理時間のごく一部で競合するテキストイメージアライメントスコアを達成することを示した。
専門家のアノテータによる人間の研究は、人間のアライメント判断と自動スコアの強い相関を明らかにし、FPAの改善の堅牢性を強調している。
提案手法は、反復的なプロンプト最適化に代わるスケーラブルで効率的な代替手段を示し、リアルタイム、高速な設定でより広い適用性を実現する。
コードベースは、さらなる研究を促進するために提供される。 https://github.com/tiktok/fast_prompt_alignment
関連論文リスト
- TIPO: Text to Image with Text Presampling for Prompt Optimization [16.001151202788304]
TIPOは、言語モデル(LM)によるテキスト・ツー・イメージ(T2I)生成を強化するために設計された革新的なフレームワークである。
LLM(Large Language Models)や強化学習(RL)に依存する従来のアプローチとは異なり、TIPOはトレーニングされたプロンプトデータセットの配布によって、ユーザの入力プロンプトを調整する。
論文 参考訳(メタデータ) (2024-11-12T19:09:45Z) - IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - MultiPrompter: Cooperative Prompt Optimization with Multi-Agent
Reinforcement Learning [68.40755873520808]
MultiPrompterは、プロンプト最適化をプロンプト間の協調ゲームと見なす新しいフレームワークである。
我々は,MultiPrompterが問題のサイズを効果的に減らし,プロンプトを最適に学習するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-10-25T15:58:51Z) - Discrete Prompt Optimization via Constrained Generation for Zero-shot
Re-ranker [0.2580765958706853]
大規模言語モデル (LLM) はゼロショットリランカとして, 優れた結果が得られる。
LLMはプロンプトに大きく依存しており、ゼロショットリランカのプロンプトの影響と最適化はまだ検討されていない。
本稿では,新しい離散的プロンプト最適化手法であるConstrained Prompt Generation(Co-Prompt)を提案する。
論文 参考訳(メタデータ) (2023-05-23T06:35:33Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。