Fugu-MT 論文翻訳(概要): UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

論文の概要: UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

arxiv url: http://arxiv.org/abs/2507.23278v1
Date: Thu, 31 Jul 2025 06:35:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:09.2112
Title: UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing
Title（参考訳）: UniLiP: 統一マルチモーダル理解、生成、編集にCLIPを適用する
Authors: Hao Tang, Chenwei Xie, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang,
Abstract要約: 我々は、CLIPを再構築、生成、編集に拡張するUniLIPを提案する。生成タスクにおいて、UniLIP は GenEval と WISE のベンチマークで 0.87 と 0.53 のスコアを取得し、同じスケールの以前の統一モデルをすべて上回っている。画像編集において、UniLIPはImgEdit Benchmarkで3.62点を獲得し、BAGELやUniWorld-V1といった最新の最先端モデルを上回っている。
参考スコア（独自算出の注目度）: 21.96787005769725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose UniLIP, which extends CLIP to reconstruction, generation and editing, thereby building a unified tokenizer upon its exceptional comprehension capabilities. Previous CLIP-based unified methods often require additional diffusion decoders or quantization to support reconstruction and generation tasks, leading to inconsistent reconstruction or degradation of original comprehension performance.In contrast, we introduce a two-stage training scheme and a self-distillation strategy that progressively integrates reconstruction capabilities into CLIP, allowing it to maintain original comprehension performance while achieving effective image reconstruction. Furthermore, we propose a dual-condition architecture to connect the MLLM and diffusion transformer, using both learnable queries and the last layer multimodal hidden states as joint conditions. This method not only enables the utilization of the MLLM's strong reasoning capabilities in generation tasks, but also maximizes the exploitation of the rich information in UniLIP features during editing tasks. In text-to-image generation tasks, UniLIP obtains scores of 0.87 and 0.53 on GenEval and WISE benchmark respectively, surpassing all previous unified models of similar scale. In image editing, UniLIP also achieves a score of 3.62 on the ImgEdit Benchmark, surpassing recent state-of-the-art models such as BAGEL and UniWorld-V1. UniLIP effectively expand the application scope of CLIP, enabling continuous CLIP features to not only serve as the optimal choice for understanding tasks but also achieve highly competitive performance in generation and editing tasks.
Abstract（参考訳）: 本稿では,CLIPを再構築,生成,編集に拡張したUniLIPを提案する。従来のCLIPベースの統合手法では、再構成・生成タスクをサポートするために拡散デコーダや量子化を必要とすることが多く、一貫性のない再構築や元の理解能力の劣化につながる。さらに,MLLMと拡散変換器を接続する二重条件アーキテクチャを提案する。この手法はMLLMの強力な推論能力を生成タスクに活用するだけでなく、編集タスクにおけるUniLIP機能の豊富な情報の利用を最大化する。テキスト・画像生成タスクにおいて、UniLIP は GenEval と WISE のベンチマークで 0.87 と 0.53 のスコアを取得し、同じスケールの以前の統一モデルをすべて上回っている。画像編集において、UniLIPはImgEdit Benchmarkで3.62点を獲得し、BAGELやUniWorld-V1といった最新の最先端モデルを上回っている。 UniLIPはCLIPのアプリケーション範囲を効果的に拡大し、連続的なCLIP機能がタスクを理解するための最適な選択肢として機能するだけでなく、生成および編集タスクにおいて高い競争力を発揮する。

関連論文リスト

LeakyCLIP: Extracting Training Data from CLIP [23.702455444224995]
textbfLeakyCLIPは、CLIP埋め込みから高品質でセマンティックに正確な画像再構成を実現することを目的としている。 CLIPのインバージョンでは,1)非破壊的特徴,2)テキスト埋め込みにおける視覚的セマンティクスの制限,3)再構築精度の低下,の3つの課題が指摘されている。
論文参考訳（メタデータ） (2025-08-01T16:32:48Z)
un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
Boosting All-in-One Image Restoration via Self-Improved Privilege Learning [72.35265021054471]
SIPL(Self-Improved Privilege Learning)は、トレーニング以外の特権情報(PI)を推論段階に拡張することで制限を克服する新しいパラダイムである。 SIPLの中心は、学習可能なPrivleged Dictionaryを組み込んだ軽量モジュールであるProxy Fusionである。大規模な実験により、SIPLは様々なオールインワン画像復元ベンチマークの最先端性を著しく向上することが示された。
論文参考訳（メタデータ） (2025-05-30T04:36:52Z)
Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文参考訳（メタデータ） (2025-05-25T07:08:07Z)
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。 ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。 ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文参考訳（メタデータ） (2025-02-21T18:59:57Z)
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。 QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。 QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文参考訳（メタデータ） (2025-02-07T18:59:57Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。最近の研究で、CLIPは機能空間の1つの側面しかエンコードできないことが判明した。本稿では,一連の相補的なCLIPモデルを微調整し,それらをCLIP-MoEに変換する新しい戦略を提案する。
論文参考訳（メタデータ） (2024-09-28T09:28:51Z)
Text-to-Image Generation Via Energy-Based CLIP [14.87860516462098]
ジョイント・エナジー・モデル(JEM)は、実世界の高解像度データセットへのスケールには成功していない。本稿は,JEMをCLIPを用いたマルチモーダル視覚言語ドメインに拡張する新しいアプローチであるCLIP-JEMを提案する。このモデルは,CLIPよりもテキストから画像への生成作業において,より堅牢な評価指標として機能することを示す。
論文参考訳（メタデータ） (2024-08-30T07:08:01Z)
Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文参考訳（メタデータ） (2023-10-26T08:12:53Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。