論文の概要: How to Teach Large Multimodal Models New Skills
- arxiv url: http://arxiv.org/abs/2510.08564v1
- Date: Thu, 09 Oct 2025 17:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.307551
- Title: How to Teach Large Multimodal Models New Skills
- Title(参考訳): 大規模マルチモーダルモデルに新しいスキルを教える方法
- Authors: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem,
- Abstract要約: 本研究では,5つの目標スキルを連続的に微調整し,8つのベンチマークで一般的な能力をモニタリングする。
細粒度調整後の保留作業の「鍛造」が後段に部分的に回復する可能性が示唆された。
ドリフトを制限しながら強く学習する,シンプルで堅牢なチューニングレシピを2つ同定する。
- 参考スコア(独自算出の注目度): 22.450589023922046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL
- Abstract(参考訳): 先行能力を損なわない大規模マルチモーダルモデル(LMM)の新たなスキルをどうやって教えることができるのか?
対象とする5つのスキルを連続的に微調整し、3つのモデルファミリーにわたる8つのホールトアウトベンチマークにおいて、一般的な能力をモニタリングする。
細粒度調整後の保留作業の「鍛造」が後段に部分的に回復する可能性が示唆された。
我々は、この挙動を出力トークン分布の計測可能なシフトに辿り着き、忘れることなく共存する単純な計数バイアスプローブを通して明らかにした。
この図に導かれ、ドリフトを制限しながら強く学習する2つのシンプルで堅牢なチューニングレシピを特定します。
一 自己注意投影層のみを更新し、
(ii)ダウンプロジェクションを凍結しながらMLP Gate&Upのみを更新する。
モデルとタスク全体において、これらの選択は強力な目標ゲインを提供する一方で、主にホールドアウトパフォーマンスを保っている。
コードはhttps://github.com/jessemelpolio/LMM_CLで入手できる。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Class incremental learning with probability dampening and cascaded gated classifier [4.285597067389559]
本稿では, Margin Dampening と Cascaded Scaling という新たな漸進正規化手法を提案する。
1つ目は、ソフト制約と知識蒸留のアプローチを組み合わせて、過去の知識を保存し、新しいパターンを忘れることを可能にします。
提案手法は,複数のベンチマークにおいて,確立されたベースラインで良好に動作することを示す。
論文 参考訳(メタデータ) (2024-02-02T09:33:07Z) - Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters [67.28751868277611]
近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:04:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Self-supervised Knowledge Distillation for Few-shot Learning [123.10294801296926]
少数のサンプルだけで秩序分布から素早く学習できるため、ショットラーニングは有望な学習パラダイムである。
数ショットの学習タスクにおいて,深層ニューラルネットワークの表現能力を向上させるための簡単な手法を提案する。
実験により、第一段階においても、自己超越は現在の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-06-17T11:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。