論文の概要: UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing
- arxiv url: http://arxiv.org/abs/2507.23278v2
- Date: Fri, 10 Oct 2025 03:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.900832
- Title: UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing
- Title(参考訳): UniLiP: 統一マルチモーダル理解、生成、編集にCLIPを適用する
- Authors: Hao Tang, Chenwei Xie, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang,
- Abstract要約: UniLIPは、マルチモーダル理解、生成、編集にCLIPを適用する統一フレームワークである。
1B と 3B のパラメータだけで、UniLIP は BAGEL (7B) や Uniworld-V1 (12B) のようなより大きな統一モデルより優れており、GenEval の最先端性能 0.90 、WISE の 0.63 、ImgEdit の 3.94 を達成している。
- 参考スコア(独自算出の注目度): 37.94327990317349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose UniLIP, a unified framework that adapts CLIP for multimodal understanding, generation and editing. Although CLIP excels at understanding, it lacks reconstruction abilities required to be a unified visual encoder. However, previous CLIP-based unified methods fail to balance understanding and reconstruction, leading to semantic degradation or inconsistent reconstructions. In contrast, we introduce a novel two-stage training scheme with a self-distillation strategy that progressively endows CLIP with high-fidelity reconstruction abilities while preserving its original comprehension performance. For enhanced reasoning and consistency in generation and editing, we further develop a dual-condition architecture built upon the MetaQuery framework. Our architecture jointly utilizes multimodal hidden states for rich contextual details and learnable query embeddings to harness the powerful reasoning abilities of Multimodal Large Language Models (MLLMs). Leveraging advanced image representation and architectural design, UniLIP demonstrates superior instruction following and edit fidelity. With only 1B and 3B parameters, UniLIP can outperform larger unified models such as BAGEL (7B) and Uniworld-V1 (12B), achieving state-of-the-art performance of 0.90 on GenEval, 0.63 on WISE, and 3.94 on ImgEdit. These results demonstrate that UniLIP successfully expands the application of CLIP, establishing its continuous features to not only serve as the optimal choice for understanding tasks but also achieve highly competitive performance in generation and editing tasks. Code and models are available at https://github.com/nnnth/UniLIP.
- Abstract(参考訳): 本稿では,マルチモーダル理解,生成,編集にCLIPを適用する統一フレームワークUniLIPを提案する。
CLIPは理解に長けているが、統一されたビジュアルエンコーダであるために必要な再構築能力は欠如している。
しかし、従来のCLIPベースの統一手法では理解と再構築のバランスが取れず、意味的劣化や一貫性のない再構築につながる。
一方,本研究では,CLIPの自己蒸留方式を取り入れた新しい2段階学習手法を導入する。
生成および編集における推論と一貫性の向上のために、MetaQueryフレームワーク上に構築されたデュアル条件アーキテクチャをさらに発展させます。
本アーキテクチャでは,マルチモーダル大規模言語モデル(MLLM)の強力な推論能力を活用するために,マルチモーダル隠れ状態と学習可能なクエリ埋め込みを併用する。
高度な画像表現とアーキテクチャ設計を活用して、UniLIPは忠実さの追従と編集に優れたインストラクションを示す。
1B と 3B のパラメータだけで、UniLIP は BAGEL (7B) や Uniworld-V1 (12B) のようなより大きな統一モデルより優れており、GenEval では 0.90 、WISE では 0.63 、ImgEdit では 3.94 である。
これらの結果は、UniLIPがCLIPの応用を成功裏に拡張し、CLIPの継続的な機能を確立し、タスクを理解するための最適な選択肢として機能するだけでなく、生成および編集における高い競争性能を達成することを実証している。
コードとモデルはhttps://github.com/nnnth/UniLIPで入手できる。
関連論文リスト
- LeakyCLIP: Extracting Training Data from CLIP [23.702455444224995]
textbfLeakyCLIPは、CLIP埋め込みから高品質でセマンティックに正確な画像再構成を実現することを目的としている。
CLIPのインバージョンでは,1)非破壊的特徴,2)テキスト埋め込みにおける視覚的セマンティクスの制限,3)再構築精度の低下,の3つの課題が指摘されている。
論文 参考訳(メタデータ) (2025-08-01T16:32:48Z) - un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。
この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2025-05-30T12:29:38Z) - Boosting All-in-One Image Restoration via Self-Improved Privilege Learning [72.35265021054471]
SIPL(Self-Improved Privilege Learning)は、トレーニング以外の特権情報(PI)を推論段階に拡張することで制限を克服する新しいパラダイムである。
SIPLの中心は、学習可能なPrivleged Dictionaryを組み込んだ軽量モジュールであるProxy Fusionである。
大規模な実験により、SIPLは様々なオールインワン画像復元ベンチマークの最先端性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-30T04:36:52Z) - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。
最近の研究で、CLIPは機能空間の1つの側面しかエンコードできないことが判明した。
本稿では,一連の相補的なCLIPモデルを微調整し,それらをCLIP-MoEに変換する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-09-28T09:28:51Z) - Text-to-Image Generation Via Energy-Based CLIP [14.87860516462098]
ジョイント・エナジー・モデル(JEM)は、実世界の高解像度データセットへのスケールには成功していない。
本稿は,JEMをCLIPを用いたマルチモーダル視覚言語ドメインに拡張する新しいアプローチであるCLIP-JEMを提案する。
このモデルは,CLIPよりもテキストから画像への生成作業において,より堅牢な評価指標として機能することを示す。
論文 参考訳(メタデータ) (2024-08-30T07:08:01Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。