論文の概要: CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning
- arxiv url: http://arxiv.org/abs/2503.19900v1
- Date: Tue, 25 Mar 2025 17:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 19:42:58.944385
- Title: CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning
- Title(参考訳): CAFe: コントラスト自己回帰ファインタニングによる表現と生成の統合
- Authors: Hao Yu, Zhuokai Zhao, Shen Yan, Lukasz Korycki, Jianyu Wang, Baosheng He, Jiayi Liu, Lizhu Zhang, Xiangjun Fan, Hanchao Yu,
- Abstract要約: 本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。
提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
- 参考スコア(独自算出の注目度): 24.981279071712173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large vision-language models (LVLMs) has driven significant progress in multimodal tasks, enabling models to interpret, reason, and generate outputs across both visual and textual domains. While excelling in generative tasks, existing LVLMs often face limitations in tasks requiring high-fidelity representation learning, such as generating image or text embeddings for retrieval. Recent work has proposed finetuning LVLMs for representational learning, but the fine-tuned model often loses its generative capabilities due to the representational learning training paradigm. To address this trade-off, we introduce CAFe, a contrastive-autoregressive fine-tuning framework that enhances LVLMs for both representation and generative tasks. By integrating a contrastive objective with autoregressive language modeling, our approach unifies these traditionally separate tasks, achieving state-of-the-art results in both multimodal retrieval and multimodal generative benchmarks, including object hallucination (OH) mitigation. CAFe establishes a novel framework that synergizes embedding and generative functionalities in a single model, setting a foundation for future multimodal models that excel in both retrieval precision and coherent output generation.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の急速な進歩は、マルチモーダルタスクにおいて大きな進歩をもたらし、モデルが視覚領域とテキスト領域の両方にわたるアウトプットを解釈し、推論し、生成することを可能にする。
生成タスクに優れているが、既存のLVLMは画像やテキストの埋め込みなどの高忠実度表現学習を必要とするタスクの制限に直面していることが多い。
最近の研究は、表現学習のための微調整LVLMを提案しているが、微調整モデルは表現学習訓練パラダイムのためにしばしば生成能力を失う。
このトレードオフに対処するために,表現性および生成性の両方においてLVLMを強化した,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。
自己回帰型言語モデリングと対照的な目的を融合させることにより、我々のアプローチは従来のタスクを統一し、オブジェクト幻覚(OH)緩和を含むマルチモーダル検索とマルチモーダル生成ベンチマークの両方で最先端の結果を得る。
CAFeは、単一のモデルに埋め込みと生成機能を相乗化する新しいフレームワークを確立し、検索精度とコヒーレントな出力生成の両方に優れた将来のマルチモーダルモデルの基盤を確立する。
関連論文リスト
- Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。
VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。
本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:48:13Z) - Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning [12.728451197053321]
小型視覚言語モデル(VLM)に特化して設計された新しいポストトレーニングパラダイムであるCurr-ReFT(Curr-ReFT)を提案する。
Curr-ReFTは、カリキュラム強化学習(Curriculum Reinforcement Learning)とRejected Smplingベースの自己改善(Rejected Smpling-based Self-improvement)の2段階からなる。
実験により,Curr-ReFTパラダイムで訓練したモデルが,様々な視覚的タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-10T08:48:50Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。