論文の概要: Learning Combinatorial Prompts for Universal Controllable Image
Captioning
- arxiv url: http://arxiv.org/abs/2303.06338v3
- Date: Wed, 2 Aug 2023 12:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 17:55:36.037056
- Title: Learning Combinatorial Prompts for Universal Controllable Image
Captioning
- Title(参考訳): ユニバーサル制御可能な画像キャプションのための組合せプロンプトの学習
- Authors: Zhen Wang, Jun Xiao, Yueting Zhuang, Fei Gao, Jian Shao, Long Chen
- Abstract要約: 制御可能な画像キャプション -- 与えられた制御信号の指示の下で、画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。
我々は,ComPro という名称の Combinatorial Prompts を学習し,CIC のための新しいプロンプトベースのフレームワークを提案する。
当社のComProは、これらのプロンプトを連結することで、より多くの種類の複合制御信号にさらに拡張することができます。
- 参考スコア(独自算出の注目度): 46.34624079520254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable Image Captioning (CIC) -- generating natural language
descriptions about images under the guidance of given control signals -- is one
of the most promising directions towards next-generation captioning systems.
Till now, various kinds of control signals for CIC have been proposed, ranging
from content-related control to structure-related control. However, due to the
format and target gaps of different control signals, all existing CIC works (or
architectures) only focus on one certain control signal, and overlook the
human-like combinatorial ability. By ``combinatorial", we mean that our humans
can easily meet multiple needs (or constraints) simultaneously when generating
descriptions. To this end, we propose a novel prompt-based framework for CIC by
learning Combinatorial Prompts, dubbed as ComPro. Specifically, we directly
utilize a pretrained language model GPT-2 as our language model, which can help
to bridge the gap between different signal-specific CIC architectures. Then, we
reformulate the CIC as a prompt-guide sentence generation problem, and propose
a new lightweight prompt generation network to generate the combinatorial
prompts for different kinds of control signals. For different control signals,
we further design a new mask attention mechanism to realize the prompt-based
CIC. Due to its simplicity, our ComPro can be further extended to more kinds of
combined control signals by concatenating these prompts. Extensive experiments
on two prevalent CIC benchmarks have verified the effectiveness and efficiency
of our ComPro on both single and combined control signals.
- Abstract(参考訳): 制御可能な画像キャプション(CIC) -- 与えられた制御信号の指示の下で画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。
現在、コンテンツ関連制御から構造関連制御まで、様々な種類のCIC制御信号が提案されている。
しかし、異なる制御信号の形式とターゲットギャップのため、既存のCICの作業(またはアーキテクチャ)は1つの制御信号にのみ焦点を合わせ、人間のような組合せ能力を見落としている。
私たちの人間は説明を生成する際に、複数のニーズ(あるいは制約)を同時に満たすことができます。
そこで我々は,ComPro と呼ばれる Combinatorial Prompts の学習により,CIC のための新しいプロンプトベースのフレームワークを提案する。
具体的には、事前訓練された言語モデルGPT-2を直接言語モデルとして利用し、異なる信号固有のCICアーキテクチャ間のギャップを埋めるのに役立つ。
そこで我々は,CICをプロンプトガイド文生成問題として再構成し,異なる種類の制御信号に対する組合せプロンプトを生成するための,新しい軽量プロンプト生成ネットワークを提案する。
異なる制御信号に対して,プロンプトベースのCICを実現するための新しいマスクアテンション機構を設計する。
シンプルさのため、ComProはこれらのプロンプトを結合することで、より多くの種類の複合制御信号にさらに拡張することができます。
2つのCICベンチマークの大規模な実験により、ComProの単一および複合制御信号に対する有効性と効率が検証された。
関連論文リスト
- Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。
本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。
本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-16T07:32:48Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Latent Prompt Tuning for Text Summarization [95.85520030785139]
本稿では,制御モードと制御不能モードの両方に適用可能な単一モデルであるLotus (Latent Prompt Tuning for Summarization)を提案する。
トレーニング中、ロータスは対照的な学習目標を用いて、ゴールドコントロール信号を持つプロンプトから潜在的なプロンプト表現を学習する。
実験では、4つの異なる要約データセットにわたる強い(制御不能な)要約モデルにおいて、制御不能なモードのロータスが一貫して改善されることを示した。
論文 参考訳(メタデータ) (2022-11-03T14:18:48Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis [65.34414353024599]
条件付き画像合成は、いくつかのマルチモーダルガイダンスに従って画像を作成することを目的としている。
多数のマルチモーダル制御を統一する2段階アーキテクチャUFC-BERTを提案する。
論文 参考訳(メタデータ) (2021-05-29T04:42:07Z) - Human-like Controllable Image Captioning with Verb-specific Semantic
Roles [15.710374070780077]
CIC: Verb-specific Semantic Roles (VSR)の新しい制御信号を提案する。
VSRは動詞とセマンティックな役割で構成され、対象とするアクティビティと、このアクティビティに関わるエンティティの役割を表します。
私たちのフレームワークは、2つの困難なCICベンチマークのいくつかの強力なベースラインよりも優れた制御性を達成できます。
論文 参考訳(メタデータ) (2021-03-22T22:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。