論文の概要: PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning
- arxiv url: http://arxiv.org/abs/2507.08064v2
- Date: Mon, 28 Jul 2025 13:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.941862
- Title: PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning
- Title(参考訳): PUMA:Modality-Adaptive Learningを用いた高能率統一型マルチモーダル検索のための階層型言語モデル
- Authors: Yibo Lyu, Rui Shao, Gongwei Chen, Yijie Zhu, Weili Guan, Liqiang Nie,
- Abstract要約: モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
- 参考スコア(独自算出の注目度): 54.73049408950049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As multimedia content expands, the demand for unified multimodal retrieval (UMR) in real-world applications increases. Recent work leverages multimodal large language models (MLLMs) to tackle this task. However, their large parameter size results in high training costs and low inference efficiency. To address this, we propose PUMA: a Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning. Our approach improves UMR from both structural and learning perspectives. (1) Structurally, we propose Layer-Pruned Self-Distillation, which prunes MLLMs by keeping only shallow layers while distilling features from dropped deep layers as teacher signals. This reduces parameters and preserves representation capability. (2) On the learning side, we introduce Modality-Adaptive Contrastive Learning Loss (MAC-Loss), which separates in-batch negatives into harder intra-modality and easier inter-modality groups based on the target modality, assigning different temperature strategies to enhance learning efficiency. Experiments show our method significantly reduces resource usage while maintaining strong performance.
- Abstract(参考訳): マルチメディアコンテンツが拡大するにつれて、現実世界のアプリケーションにおける統一マルチモーダル検索(UMR)の需要が高まっている。
近年,マルチモーダル・大規模言語モデル (MLLM) を用いてこの問題に対処している。
しかし、その大きなパラメータサイズは、高いトレーニングコストと低い推論効率をもたらす。
そこで本研究では,モーダリティ適応学習による効率的な統一マルチモーダル検索のための階層型言語モデルPUMAを提案する。
我々のアプローチは、構造と学習の両方の観点から、UMRを改善する。
1) 教師の信号として, 薄い層のみを保持しながら, 薄い層のみを蒸留し, MLLMを膨らませる層運転自己蒸留法を提案する。
これによりパラメータが減り、表現能力が保たれる。
2)学習面では,学習効率を高めるために異なる温度戦略を割り当てることで,バッチ陰性をより厳密なモダリティとより容易なモダリティグループに分離するMAC-Loss(Modality-Adaptive Contrastive Learning Loss)を導入する。
実験の結果, 高い性能を維持しながら, 資源使用量を大幅に削減できることがわかった。
関連論文リスト
- Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying [7.9925771591348065]
コアコントラスト学習パラダイムは、CLIPスタイルのモデルからMLLMに大きく変化しない。
本研究では,クエリ,正,負のサンプルに対する情報NCE損失の勾配を詳細に解析する。
そこで本研究では, 強陰性サンプルに関連する勾配を明示的に増幅し, より識別的な埋め込みの学習を促すことを提案する。
論文 参考訳(メタデータ) (2025-05-28T11:18:19Z) - Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。