Fugu-MT 論文翻訳(概要): Learning Combinatorial Prompts for Universal Controllable Image Captioning

論文の概要: Learning Combinatorial Prompts for Universal Controllable Image Captioning

arxiv url: http://arxiv.org/abs/2303.06338v1
Date: Sat, 11 Mar 2023 07:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 19:37:26.908726
Title: Learning Combinatorial Prompts for Universal Controllable Image Captioning
Title（参考訳）: ユニバーサル制御可能な画像キャプションのための組合せプロンプトの学習
Authors: Zhen Wang, Jun Xiao, Lei Chen, Fei Gao, Jian Shao, Long Chen
Abstract要約: 制御可能な画像キャプション -- 与えられた制御信号の指示の下で、画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。我々は,ComPro という名称の Combinatorial Prompts を学習し,CIC のための新しいプロンプトベースのフレームワークを提案する。私たちのComProは、これらのプロンプトを連結することで、より複雑な複合制御信号に容易に拡張できます。
参考スコア（独自算出の注目度）: 22.397183898343055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable Image Captioning (CIC) -- generating natural language descriptions about images under the guidance of given control signals -- is one of the most promising directions towards next-generation captioning systems. Till now, various kinds of control signals for CIC have been proposed, ranging from content-related control to structure-related control. However, due to the format and target gaps of different control signals, all existing CIC works (or architectures) only focus on one certain control signal, and overlook the human-like combinatorial ability. By ``combinatorial", we mean that our humans can easily meet multiple needs (or constraints) simultaneously when generating descriptions. To this end, we propose a novel prompt-based framework for CIC by learning Combinatorial Prompts, dubbed as ComPro. Specifically, we directly utilize a pretrained language model GPT-2 as our language model, which can help to bridge the gap between different signal-specific CIC architectures. Then, we reformulate the CIC as a prompt-guide sentence generation problem, and propose a new lightweight prompt generation network to generate the combinatorial prompts for different kinds of control signals. For different control signals, we further design a new mask attention mechanism to realize the prompt-based CIC. Due to its simplicity, our ComPro can easily be extended to more complex combined control signals by concatenating these prompts. Extensive experiments on two prevalent CIC benchmarks have verified the effectiveness and efficiency of our ComPro on both single and combined control signals.
Abstract（参考訳）: 制御可能な画像キャプション(CIC) -- 与えられた制御信号の指示の下で画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。現在、コンテンツ関連制御から構造関連制御まで、様々な種類のCIC制御信号が提案されている。しかし、異なる制御信号の形式とターゲットギャップのため、既存のCICの作業(またはアーキテクチャ)は1つの制御信号にのみ焦点を合わせ、人間のような組合せ能力を見落としている。私たちの人間は説明を生成する際に、複数のニーズ(あるいは制約)を同時に満たすことができます。そこで我々は,ComPro と呼ばれる Combinatorial Prompts の学習により,CIC のための新しいプロンプトベースのフレームワークを提案する。具体的には、事前訓練された言語モデルGPT-2を直接言語モデルとして利用し、異なる信号固有のCICアーキテクチャ間のギャップを埋めるのに役立つ。そこで我々は,CICをプロンプトガイド文生成問題として再構成し,異なる種類の制御信号に対する組合せプロンプトを生成するための,新しい軽量プロンプト生成ネットワークを提案する。異なる制御信号に対して,プロンプトベースのCICを実現するための新しいマスクアテンション機構を設計する。その単純さから、当社のcomproはこれらのプロンプトを結合することで、より複雑な複合制御信号に容易に拡張できます。 2つのCICベンチマークの大規模な実験により、ComProの単一および複合制御信号に対する有効性と効率が検証された。

関連論文リスト

Minimal Impact ControlNet: Advancing Multi-ControlNet Integration [35.40147040893738]
現在のControlNetトレーニングでは、各コントロールは画像のすべての領域に影響を与えるように設計されている。無声制御信号は、関連する領域におけるテクスチャの発生を抑制することができる。この問題に対処するために,ミニマル・インパクト・コントロールネットを提案する。
論文参考訳（メタデータ） (2025-06-02T13:41:43Z)
UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。 UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文参考訳（メタデータ） (2024-12-25T15:19:02Z)
I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
論文参考訳（メタデータ） (2024-11-26T04:21:22Z)
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-16T07:32:48Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文参考訳（メタデータ） (2023-06-01T17:55:32Z)
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。 UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。 9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文参考訳（メタデータ） (2023-05-18T17:41:34Z)
Latent Prompt Tuning for Text Summarization [95.85520030785139]
本稿では,制御モードと制御不能モードの両方に適用可能な単一モデルであるLotus (Latent Prompt Tuning for Summarization)を提案する。トレーニング中、ロータスは対照的な学習目標を用いて、ゴールドコントロール信号を持つプロンプトから潜在的なプロンプト表現を学習する。実験では、4つの異なる要約データセットにわたる強い(制御不能な)要約モデルにおいて、制御不能なモードのロータスが一貫して改善されることを示した。
論文参考訳（メタデータ） (2022-11-03T14:18:48Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis [65.34414353024599]
条件付き画像合成は、いくつかのマルチモーダルガイダンスに従って画像を作成することを目的としている。多数のマルチモーダル制御を統一する2段階アーキテクチャUFC-BERTを提案する。
論文参考訳（メタデータ） (2021-05-29T04:42:07Z)
Human-like Controllable Image Captioning with Verb-specific Semantic Roles [15.710374070780077]
CIC: Verb-specific Semantic Roles (VSR)の新しい制御信号を提案する。 VSRは動詞とセマンティックな役割で構成され、対象とするアクティビティと、このアクティビティに関わるエンティティの役割を表します。私たちのフレームワークは、2つの困難なCICベンチマークのいくつかの強力なベースラインよりも優れた制御性を達成できます。
論文参考訳（メタデータ） (2021-03-22T22:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。