論文の概要: VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2504.07960v1
- Date: Thu, 10 Apr 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 15:46:09.240879
- Title: VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
- Title(参考訳): VisualCloze:ビジュアルインコンテキスト学習によるユニバーサル画像生成フレームワーク
- Authors: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng,
- Abstract要約: ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
- 参考スコア(独自算出の注目度): 68.98988753763666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.
- Abstract(参考訳): 拡散モデルの最近の進歩は、様々な画像生成タスクを著しく前進させる。
しかし、現在の主流のアプローチはタスク固有のモデルの構築に焦点を絞っている。
ユニバーサルモデルは、この制限に対処しようとするが、一般化可能なタスク命令、適切なタスク分布、統一されたアーキテクチャ設計など、重要な課題に直面している。
このような課題に対処するために,幅広いドメイン内タスクをサポートするユニバーサルイメージ生成フレームワークであるVisualClozeを提案する。
タスクのあいまいさや一般化の弱さにつながる、言語ベースのタスク命令に依存する既存の手法とは異なり、視覚的インコンテキスト学習を統合し、モデルが視覚的なデモンストレーションからタスクを識別できるようにする。
一方、視覚的タスクの分布の空間性は、タスク間での伝達可能な知識の学習を妨げます。
この目的のために、グラフ構造化データセットであるGraph200Kを導入し、様々な相互関連タスクを確立し、タスク密度と伝達可能な知識を高める。
さらに、統合画像生成の定式化は、画像の埋め込みと一貫した目的を共有しており、アーキテクチャを変更することなく、事前学習した埋め込みモデルの強力な生成先を活用できることを明らかにした。
関連論文リスト
- Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。
カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文 参考訳(メタデータ) (2025-03-13T14:31:52Z) - X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。
X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。
テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文 参考訳(メタデータ) (2024-12-02T18:59:26Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。