論文の概要: Model Merging to Maintain Language-Only Performance in Developmentally Plausible Multimodal Models
- arxiv url: http://arxiv.org/abs/2510.01845v1
- Date: Thu, 02 Oct 2025 09:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.081718
- Title: Model Merging to Maintain Language-Only Performance in Developmentally Plausible Multimodal Models
- Title(参考訳): 言語にのみ依存するモデルマージ -発達的プラザブルなマルチモーダルモデルにおけるパフォーマンス-
- Authors: Ece Takmaz, Lisa Bylinina, Jakub Dotlacil,
- Abstract要約: 本稿では,この相違に対処するBabyLMチャレンジのマルチモーダルトラックへのアプローチについて述べる。
我々は,開発可能なデータセットを用いて,低リソース環境下で言語のみおよびマルチモーダルモデルを開発する。
- 参考スコア(独自算出の注目度): 2.3193211674050516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art vision-and-language models consist of many parameters and learn from enormous datasets, surpassing the amounts of linguistic data that children are exposed to as they acquire a language. This paper presents our approach to the multimodal track of the BabyLM challenge addressing this discrepancy. We develop language-only and multimodal models in low-resource settings using developmentally plausible datasets, with our multimodal models outperforming previous BabyLM baselines. One finding in the multimodal language model literature is that these models tend to underperform in \textit{language-only} tasks. Therefore, we focus on maintaining language-only abilities in multimodal models. To this end, we experiment with \textit{model merging}, where we fuse the parameters of multimodal models with those of language-only models using weighted linear interpolation. Our results corroborate the findings that multimodal models underperform in language-only benchmarks that focus on grammar, and model merging with text-only models can help alleviate this problem to some extent, while maintaining multimodal performance.
- Abstract(参考訳): 最先端のビジョン・アンド・ランゲージモデルは、多くのパラメータで構成され、巨大なデータセットから学習する。
本稿では,この相違に対処するBabyLMチャレンジのマルチモーダルトラックへのアプローチについて述べる。
我々は,開発可能なデータセットを用いて,低リソース環境下で言語のみおよびマルチモーダルモデルを構築し,従来のBabyLMベースラインよりも優れたマルチモーダルモデルを構築した。
マルチモーダル言語モデルの文献で見いだされるのは、これらのモデルが \textit{lang-only} タスクで過小評価される傾向があることである。
そこで本稿では,マルチモーダルモデルにおける言語のみの機能を維持することに注力する。
そこで、重み付き線形補間を用いた言語のみのモデルとマルチモーダルモデルのパラメータを融合させる。
この結果から,文法に重点を置く言語のみのベンチマークではマルチモーダルモデルの性能が低下し,テキストのみのモデルとマージすることで,マルチモーダル性能を維持しつつ,この問題をある程度軽減できる可能性が示唆された。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation [2.9998889086656586]
本稿では,言語データに基づいて学習した大規模視覚言語モデルの適応手法を提案し,その性能を向上する。
マルチ言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-12T12:04:05Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。