論文の概要: Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts
- arxiv url: http://arxiv.org/abs/2312.01408v1
- Date: Sun, 3 Dec 2023 14:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:33:52.318132
- Title: Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts
- Title(参考訳): 視覚的文脈変調による拡散モデルにおける文脈内学習の改善
- Authors: Tianqi Chen, Yongfei Liu, Zhendong Wang, Jianbo Yuan, Quanzeng You,
Hongxia Yang, Mingyuan Zhou
- Abstract要約: 本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
- 参考スコア(独自算出の注目度): 83.03471704115786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In light of the remarkable success of in-context learning in large language
models, its potential extension to the vision domain, particularly with visual
foundation models like Stable Diffusion, has sparked considerable interest.
Existing approaches in visual in-context learning frequently face hurdles such
as expensive pretraining, limiting frameworks, inadequate visual comprehension,
and limited adaptability to new tasks. In response to these challenges, we
introduce improved Prompt Diffusion (iPromptDiff) in this study. iPromptDiff
integrates an end-to-end trained vision encoder that converts visual context
into an embedding vector. This vector is subsequently used to modulate the
token embeddings of text prompts. We show that a diffusion-based vision
foundation model, when equipped with this visual context-modulated text
guidance and a standard ControlNet structure, exhibits versatility and
robustness across a variety of training tasks and excels in in-context learning
for novel vision tasks, such as normal-to-image or image-to-line
transformations. The effectiveness of these capabilities relies heavily on a
deep visual understanding, which is achieved through relevant visual
demonstrations processed by our proposed in-context learning architecture.
- Abstract(参考訳): 大規模言語モデルにおけるコンテキスト内学習の顕著な成功を踏まえて、視覚領域への潜在的な拡張、特に安定拡散のような視覚基盤モデルが大きな関心を集めている。
ビジュアルインコンテキスト学習における既存のアプローチは、高価な事前トレーニング、フレームワークの制限、不適切な視覚的理解、新しいタスクへの適応性の制限といったハードルに直面することが多い。
これらの課題に対して,本研究では,改良型プロンプト拡散(iPromptDiff)を導入する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
このベクトルはその後、テキストプロンプトのトークン埋め込みを変調するために使われる。
拡散型視覚基盤モデルでは、この視覚的文脈変調テキストガイダンスと標準制御ネット構造を備えると、様々な訓練タスクの多目的性と堅牢性を示し、通常画像や画像から線への変換のような新しい視覚タスクのコンテキスト内学習に優れることを示す。
これらの能力の有効性は深い視覚的理解に大きく依存しており、提案した文脈内学習アーキテクチャによって処理された関連する視覚的実演によって達成される。
関連論文リスト
- Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。