論文の概要: An Image is Worth Multiple Words: Learning Object Level Concepts using
Multi-Concept Prompt Learning
- arxiv url: http://arxiv.org/abs/2310.12274v1
- Date: Wed, 18 Oct 2023 19:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 18:07:14.398872
- Title: An Image is Worth Multiple Words: Learning Object Level Concepts using
Multi-Concept Prompt Learning
- Title(参考訳): 画像は価値ある複数の単語である:多概念プロンプト学習を用いたオブジェクトレベル概念の学習
- Authors: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
- Abstract要約: テクスチュラル・インバージョンは、画像のスタイルと外観を表現するために、新しい「単語」のための特異な埋め込みを学ぶ。
本稿では,複数の単語を1つの文と画像のペアから同時に学習するMCPL(Multi-Concept Prompt Learning)フレームワークを提案する。
画像生成,編集,多彩な画像による注意の可視化による評価を行った。
- 参考スコア(独自算出の注目度): 9.640238242565621
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Textural Inversion, a prompt learning method, learns a singular embedding for
a new "word" to represent image style and appearance, allowing it to be
integrated into natural language sentences to generate novel synthesised
images. However, identifying and integrating multiple object-level concepts
within one scene poses significant challenges even when embeddings for
individual concepts are attainable. This is further confirmed by our empirical
tests. To address this challenge, we introduce a framework for Multi-Concept
Prompt Learning (MCPL), where multiple new "words" are simultaneously learned
from a single sentence-image pair. To enhance the accuracy of word-concept
correlation, we propose three regularisation techniques: Attention Masking
(AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss
(PromptCL) to separate the embeddings of different concepts; and Bind adjective
(Bind adj.) to associate new "words" with known words. We evaluate via image
generation, editing, and attention visualisation with diverse images. Extensive
quantitative comparisons demonstrate that our method can learn more
semantically disentangled concepts with enhanced word-concept correlation.
Additionally, we introduce a novel dataset and evaluation protocol tailored for
this new task of learning object-level concepts.
- Abstract(参考訳): プロンプト学習法であるtextural inversionは、画像のスタイルと外観を表現する新しい「単語」のための特異な埋め込みを学習し、自然言語文に統合して新しい合成画像を生成することができる。
しかし、複数のオブジェクトレベルの概念を1つのシーンで識別し統合することは、個々の概念への埋め込みが達成可能であったとしても、重大な課題となる。
これは我々の経験的テストによってさらに確認される。
この課題に対処するために,複数の新しい単語を1つの文と画像のペアから同時に学習するMCPL(Multi-Concept Prompt Learning)フレームワークを提案する。
単語-概念相関の精度を高めるために、関連する領域の学習に集中するための注意的マスキング(AttnMask)、異なる概念の埋め込みを分離するためのPrompts Contrastive Loss(PromptCL)、既知の単語に新しい「単語」を関連付けるBind形容詞(Bind adj.)の3つの正規化手法を提案する。
画像生成,編集,多彩な画像による注意の可視化による評価を行った。
広範囲な定量的比較により,本手法は単語と概念の相関性を高め,より意味論的に絡み合った概念を学習できることが示される。
さらに,オブジェクト指向概念を学習する新たな課題に合わせた,新たなデータセットと評価プロトコルを提案する。
関連論文リスト
- Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Language-Informed Visual Concept Learning [25.02900120591992]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - NEUCORE: Neural Concept Reasoning for Composed Image Retrieval [16.08214739525615]
NEUral Concept Reasoning モデルを提案する。
提案手法は3つのデータセットで評価し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-10-02T17:21:25Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。