論文の概要: Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2405.10316v1
- Date: Thu, 16 May 2024 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:12:38.490711
- Title: Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model
- Title(参考訳): アナロジスト:画像拡散モデルを用いたアウト・オブ・ザ・ボックス型ビジュアルインテクスト学習
- Authors: Zheng Gu, Shiyuan Yang, Jing Liao, Jing Huo, Yang Gao,
- Abstract要約: 本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
- 参考スコア(独自算出の注目度): 25.47573567479831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual In-Context Learning (ICL) has emerged as a promising research area due to its capability to accomplish various tasks with limited example pairs through analogical reasoning. However, training-based visual ICL has limitations in its ability to generalize to unseen tasks and requires the collection of a diverse task dataset. On the other hand, existing methods in the inference-based visual ICL category solely rely on textual prompts, which fail to capture fine-grained contextual information from given examples and can be time-consuming when converting from images to text prompts. To address these challenges, we propose Analogist, a novel inference-based visual ICL approach that exploits both visual and textual prompting techniques using a text-to-image diffusion model pretrained for image inpainting. For visual prompting, we propose a self-attention cloning (SAC) method to guide the fine-grained structural-level analogy between image examples. For textual prompting, we leverage GPT-4V's visual reasoning capability to efficiently generate text prompts and introduce a cross-attention masking (CAM) operation to enhance the accuracy of semantic-level analogy guided by text prompts. Our method is out-of-the-box and does not require fine-tuning or optimization. It is also generic and flexible, enabling a wide range of visual tasks to be performed in an in-context manner. Extensive experiments demonstrate the superiority of our method over existing approaches, both qualitatively and quantitatively.
- Abstract(参考訳): Visual In-Context Learning (ICL) は、アナログ推論を通じて、限られたサンプルペアで様々なタスクを遂行する能力によって、有望な研究領域として浮上している。
しかし、トレーニングベースのビジュアルICLは、見えないタスクに一般化する能力に限界があり、多様なタスクデータセットの収集が必要である。
一方、推論に基づく視覚的ICLカテゴリの既存の手法はテキストプロンプトのみに依存しており、与えられた例からきめ細かいコンテキスト情報をキャプチャできず、画像からテキストプロンプトに変換するのに時間がかかる。
これらの課題に対処するために,画像インペイントのために予め訓練されたテキスト間拡散モデルを用いて,視覚的およびテキスト的プロンプト技術の両方を活用する,新しい推論ベースの視覚的ICLアプローチであるAnaologistを提案する。
視覚的プロンプトのために,画像サンプル間の微細な構造レベルの類似を導出する自己注意クローニング法を提案する。
テキストプロンプトには、GPT-4Vの視覚的推論機能を活用し、テキストプロンプトを効率的に生成し、テキストプロンプトによって導かれるセマンティックレベルのアナロジーの精度を高めるために、クロスアテンションマスキング(CAM)操作を導入する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
また、汎用的で柔軟性があり、幅広い視覚的タスクをコンテキスト内で実行できる。
大規模実験により,既存手法よりも定性的かつ定量的に,本手法の優位性を実証した。
関連論文リスト
- Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文 参考訳(メタデータ) (2022-10-03T22:21:07Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。