論文の概要: UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing
- arxiv url: http://arxiv.org/abs/2507.23278v1
- Date: Thu, 31 Jul 2025 06:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.2112
- Title: UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing
- Title(参考訳): UniLiP: 統一マルチモーダル理解、生成、編集にCLIPを適用する
- Authors: Hao Tang, Chenwei Xie, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang,
- Abstract要約: 我々は、CLIPを再構築、生成、編集に拡張するUniLIPを提案する。
生成タスクにおいて、UniLIP は GenEval と WISE のベンチマークで 0.87 と 0.53 のスコアを取得し、同じスケールの以前の統一モデルをすべて上回っている。
画像編集において、UniLIPはImgEdit Benchmarkで3.62点を獲得し、BAGELやUniWorld-V1といった最新の最先端モデルを上回っている。
- 参考スコア(独自算出の注目度): 21.96787005769725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose UniLIP, which extends CLIP to reconstruction, generation and editing, thereby building a unified tokenizer upon its exceptional comprehension capabilities. Previous CLIP-based unified methods often require additional diffusion decoders or quantization to support reconstruction and generation tasks, leading to inconsistent reconstruction or degradation of original comprehension performance.In contrast, we introduce a two-stage training scheme and a self-distillation strategy that progressively integrates reconstruction capabilities into CLIP, allowing it to maintain original comprehension performance while achieving effective image reconstruction. Furthermore, we propose a dual-condition architecture to connect the MLLM and diffusion transformer, using both learnable queries and the last layer multimodal hidden states as joint conditions. This method not only enables the utilization of the MLLM's strong reasoning capabilities in generation tasks, but also maximizes the exploitation of the rich information in UniLIP features during editing tasks. In text-to-image generation tasks, UniLIP obtains scores of 0.87 and 0.53 on GenEval and WISE benchmark respectively, surpassing all previous unified models of similar scale. In image editing, UniLIP also achieves a score of 3.62 on the ImgEdit Benchmark, surpassing recent state-of-the-art models such as BAGEL and UniWorld-V1. UniLIP effectively expand the application scope of CLIP, enabling continuous CLIP features to not only serve as the optimal choice for understanding tasks but also achieve highly competitive performance in generation and editing tasks.
- Abstract(参考訳): 本稿では,CLIPを再構築,生成,編集に拡張したUniLIPを提案する。
従来のCLIPベースの統合手法では、再構成・生成タスクをサポートするために拡散デコーダや量子化を必要とすることが多く、一貫性のない再構築や元の理解能力の劣化につながる。
さらに,MLLMと拡散変換器を接続する二重条件アーキテクチャを提案する。
この手法はMLLMの強力な推論能力を生成タスクに活用するだけでなく、編集タスクにおけるUniLIP機能の豊富な情報の利用を最大化する。
テキスト・画像生成タスクにおいて、UniLIP は GenEval と WISE のベンチマークで 0.87 と 0.53 のスコアを取得し、同じスケールの以前の統一モデルをすべて上回っている。
画像編集において、UniLIPはImgEdit Benchmarkで3.62点を獲得し、BAGELやUniWorld-V1といった最新の最先端モデルを上回っている。
UniLIPはCLIPのアプリケーション範囲を効果的に拡大し、連続的なCLIP機能がタスクを理解するための最適な選択肢として機能するだけでなく、生成および編集タスクにおいて高い競争力を発揮する。
関連論文リスト
- Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。
最近の研究で、CLIPは機能空間の1つの側面しかエンコードできないことが判明した。
本稿では,一連の相補的なCLIPモデルを微調整し,それらをCLIP-MoEに変換する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-09-28T09:28:51Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。