論文の概要: Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation
- arxiv url: http://arxiv.org/abs/2412.01027v2
- Date: Tue, 03 Dec 2024 03:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:31.211700
- Title: Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation
- Title(参考訳): Few-shot Image Manipulationのための自己回帰モデルの文脈内学習
- Authors: Bolin Lai, Felix Juefei-Xu, Miao Liu, Xiaoliang Dai, Nikhil Mehta, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee, Ning Zhang, Tong Xiao,
- Abstract要約: 我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
- 参考スコア(独自算出の注目度): 70.95783968368124
- License:
- Abstract: Text-guided image manipulation has experienced notable advancement in recent years. In order to mitigate linguistic ambiguity, few-shot learning with visual examples has been applied for instructions that are underrepresented in the training set, or difficult to describe purely in language. However, learning from visual prompts requires strong reasoning capability, which diffusion models are struggling with. To address this issue, we introduce a novel multi-modal autoregressive model, dubbed $\textbf{InstaManip}$, that can $\textbf{insta}$ntly learn a new image $\textbf{manip}$ulation operation from textual and visual guidance via in-context learning, and apply it to new query images. Specifically, we propose an innovative group self-attention mechanism to break down the in-context learning process into two separate stages -- learning and applying, which simplifies the complex problem into two easier tasks. We also introduce a relation regularization method to further disentangle image transformation features from irrelevant contents in exemplar images. Extensive experiments suggest that our method surpasses previous few-shot image manipulation models by a notable margin ($\geq$19% in human evaluation). We also find our model can be further boosted by increasing the number or diversity of exemplar images.
- Abstract(参考訳): テキスト誘導画像操作は近年顕著な進歩を遂げている。
言語的あいまいさを軽減するために、トレーニングセットで不足している命令や、純粋に言語で記述することが難しい命令に対して、視覚的な例による少数ショット学習が適用されている。
しかし、視覚的なプロンプトから学ぶには、拡散モデルが苦戦している強力な推論能力が必要である。
この問題に対処するために,新たなマルチモーダル自動回帰モデルである$\textbf{InstaManip}$を導入し,新しい画像から$\textbf{insta}$ntly学習を行う。
具体的には、コンテキスト内学習プロセスを学習と適用という2つの段階に分割し、複雑な問題をより簡単な2つのタスクに分割する、革新的なグループ自己注意機構を提案する。
また,画像の非関連コンテンツから画像変換機能をさらに切り離すための関係正規化手法も導入する。
大規模な実験により,本手法は過去の数ショット画像操作モデルよりも顕著なマージン(人的評価では19%)を超越したことが示唆された。
また,既存画像の数や多様性を増大させることで,モデルをさらに強化できることを示す。
関連論文リスト
- Language-Inspired Relation Transfer for Few-shot Class-Incremental Learning [42.923762020491495]
視覚的な手掛かりとテキストの描写でオブジェクトを理解するために,LRT(Language-inspired Relation Transfer)パラダイムを提案する。
提案したLRTは,Mini-ImageNetおよびCIFAR-100 FSCILベンチマークの最終セッションにおいて,最先端モデルよりも13%以上,7%以上性能が向上する。
論文 参考訳(メタデータ) (2025-01-10T10:59:27Z) - TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。