論文の概要: GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
- arxiv url: http://arxiv.org/abs/2503.19480v1
- Date: Tue, 25 Mar 2025 09:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:21.319436
- Title: GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
- Title(参考訳): GenHancer:完璧な生成モデルは秘密裏に強力な視覚中心のエンハンサー
- Authors: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan,
- Abstract要約: 本研究では,視覚的に完璧な世代が表現の強化に必ずしも最適であるとは限らないことを実証的に見出した。
その本質は、無関係な情報を緩和しながら、生成モデルからきめ細かい知識を効果的に抽出することにある。
本稿では,学習に有用な視覚知識を優先するための2段階の学習戦略を提案する。
- 参考スコア(独自算出の注目度): 47.92114255322673
- License:
- Abstract: The synergy between generative and discriminative models receives growing attention. While discriminative Contrastive Language-Image Pre-Training (CLIP) excels in high-level semantics, it struggles with perceiving fine-grained visual details. Generally, to enhance representations, generative models take CLIP's visual features as conditions for reconstruction. However, the underlying principle remains underexplored. In this work, we empirically found that visually perfect generations are not always optimal for representation enhancement. The essence lies in effectively extracting fine-grained knowledge from generative models while mitigating irrelevant information. To explore critical factors, we delve into three aspects: (1) Conditioning mechanisms: We found that even a small number of local tokens can drastically reduce the difficulty of reconstruction, leading to collapsed training. We thus conclude that utilizing only global visual tokens as conditions is the most effective strategy. (2) Denoising configurations: We observed that end-to-end training introduces extraneous information. To address this, we propose a two-stage training strategy to prioritize learning useful visual knowledge. Additionally, we demonstrate that lightweight denoisers can yield remarkable improvements. (3) Generation paradigms: We explore both continuous and discrete denoisers with desirable outcomes, validating the versatility of our method. Through our in-depth explorations, we have finally arrived at an effective method, namely GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark, e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into multimodal large language models for better vision-centric performance. All the models and codes are made publicly available.
- Abstract(参考訳): 生成モデルと識別モデルの間の相乗効果は注目される。
差別的なContrastive Language- Image Pre-Training (CLIP)は高レベルのセマンティクスで優れているが、細かな視覚的詳細を理解するのに苦労している。
一般的に、表現を強化するために、生成モデルはCLIPの視覚的特徴を再構成の条件として捉えている。
しかし、その根底にある原理は未解明のままである。
本研究では,視覚的に完璧な世代が表現の強化に必ずしも最適であるとは限らないことを実証的に見出した。
その本質は、無関係な情報を緩和しながら、生成モデルからきめ細かい知識を効果的に抽出することにある。
1)条件付けメカニズム: 少数のローカルトークンであっても、再構築の難しさを劇的に減らし、トレーニングが崩壊することを発見した。
そこで我々は,グローバルな視覚トークンのみを条件として活用することが最も効果的な戦略であると結論づけた。
2) 構成の認知: エンド・ツー・エンドのトレーニングが外部情報を導入しているのが観察された。
そこで本研究では,学習に有用な視覚知識を優先する2段階の学習戦略を提案する。
さらに、軽量なデノイザが顕著な改善をもたらすことを実証する。
(3) 生成パラダイム: 提案手法の汎用性を検証し, 望ましい結果を得た連続型と離散型の両方を探索する。
GenHancerは、MMVP-VLMベンチマークの先行技術、例えばOpenAICLIPの6.0%を一貫して上回ります。
強化されたCLIPは、視覚中心のパフォーマンスを改善するために、マルチモーダルな大規模言語モデルにさらにプラグインすることができる。
すべてのモデルとコードは公開されています。
関連論文リスト
- MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。
VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。
MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文 参考訳(メタデータ) (2024-12-18T18:58:50Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。