Fugu-MT 論文翻訳(概要): Unified Generative and Discriminative Training for Multi-modal Large Language Models

論文の概要: Unified Generative and Discriminative Training for Multi-modal Large Language Models

arxiv url: http://arxiv.org/abs/2411.00304v1
Date: Fri, 01 Nov 2024 01:51:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.159442
Title: Unified Generative and Discriminative Training for Multi-modal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルの統一的生成・識別訓練
Authors: Wei Chow, Juncheng Li, Qifan Yu, Kaihang Pan, Hao Fei, Zhiqi Ge, Shuai Yang, Siliang Tang, Hanwang Zhang, Qianru Sun,
Abstract要約: 生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
参考スコア（独自算出の注目度）: 88.84491005030316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent times, Vision-Language Models (VLMs) have been trained under two predominant paradigms. Generative training has enabled Multimodal Large Language Models (MLLMs) to tackle various complex tasks, yet issues such as hallucinations and weak object discrimination persist. Discriminative training, exemplified by models like CLIP, excels in zero-shot image-text classification and retrieval, yet struggles with complex scenarios requiring fine-grained semantic differentiation. This paper addresses these challenges by proposing a unified approach that integrates the strengths of both paradigms. Considering interleaved image-text sequences as the general format of input samples, we introduce a structure-induced training strategy that imposes semantic relationships between input samples and the MLLM's hidden state. This approach enhances the MLLM's ability to capture global semantics and distinguish fine-grained semantics. By leveraging dynamic sequence alignment within the Dynamic Time Warping framework and integrating a novel kernel for fine-grained semantic differentiation, our method effectively balances generative and discriminative tasks. Extensive experiments demonstrate the effectiveness of our approach, achieving state-of-the-art results in multiple generative tasks, especially those requiring cognitive and discrimination abilities. Additionally, our method surpasses discriminative benchmarks in interleaved and fine-grained retrieval tasks. By employing a retrieval-augmented generation strategy, our approach further enhances performance in some generative tasks within one model, offering a promising direction for future research in vision-language modeling.
Abstract（参考訳）: 近年、ビジョン・ランゲージ・モデル (VLM) は2つの主要なパラダイムの下で訓練されている。ジェネレーティブトレーニングにより、MLLM(Multimodal Large Language Models)は様々な複雑なタスクに対処できるが、幻覚や弱いオブジェクトの識別といった問題は持続している。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショット画像テキストの分類と検索に優れるが、微粒なセマンティックな区別を必要とする複雑なシナリオに苦労する。本稿では,両パラダイムの強みを統合する統一的アプローチを提案することによって,これらの課題に対処する。インプットサンプルの汎用形式としてインターリーブ画像テキストシーケンスを考慮し,入力サンプルとMLLMの隠れ状態とのセマンティックな関係を付与する構造的学習手法を提案する。このアプローチはMLLMのグローバルセマンティクスをキャプチャし、きめ細かいセマンティクスを区別する能力を向上する。動的時間ワープフレームワーク内での動的シーケンスアライメントの活用と,よりきめ細かな意味分化のための新しいカーネルの統合により,本手法は生成的タスクと識別的タスクを効果的にバランスさせる。広範にわたる実験により,複数の生成課題,特に認知能力と識別能力を必要とする課題において,最先端の成果が得られた。さらに,本手法は,インターリーブおよび微粒化検索タスクにおける識別的ベンチマークを超越する。検索強化型生成戦略を用いることで,1つのモデル内の生成タスクの性能をさらに向上させ,将来的な視覚言語モデリング研究の方向性を示す。

関連論文リスト

From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文参考訳（メタデータ） (2026-01-28T09:29:40Z)
Multi-Aspect Cross-modal Quantization for Generative Recommendation [27.92632297542123]
生成レコメンデーション(MACRec)のための多視点クロスモーダル量子化を提案する。まず、ID学習過程において、競合率を効果的に低減するクロスモーダル量子化を導入する。また、暗黙のアライメントや明示的なアライメントを含むマルチアスペクトのクロスモーダルアライメントも組み込んでいます。
論文参考訳（メタデータ） (2025-11-19T04:55:14Z)
Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文参考訳（メタデータ） (2025-06-16T02:27:25Z)
CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [24.981279071712173]
本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文参考訳（メタデータ） (2025-03-25T17:57:17Z)
Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文参考訳（メタデータ） (2024-12-10T20:36:49Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。 Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。 CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文参考訳（メタデータ） (2024-09-03T12:34:21Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文参考訳（メタデータ） (2024-02-28T16:35:52Z)
Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond [16.913115978881866]
本稿では,単一ベクトル空間内において,より小さな言語モデルや多様なプロンプトを持つ大規模言語モデルを含む,様々なモデルからのタスク埋め込みである統合タスク埋め込み(FUTE)フレームワークを提案する。このような一様性は、異なるモデル間の類似性の比較と分析を可能にし、マルチモデルシナリオにおける既存のタスク埋め込みメソッドの範囲と有用性を広げる。
論文参考訳（メタデータ） (2024-02-22T13:13:31Z)
Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文参考訳（メタデータ） (2023-10-17T03:21:43Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Meta-Learning via Classifier(-free) Guidance [5.812784742024491]
最先端のメタ学習技術は、目に見えないタスクへのゼロショット適応を最適化しない。本稿では,自然言語指導によるゼロショット性能向上のためのメタ学習手法を提案する。
論文参考訳（メタデータ） (2022-10-17T11:09:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。