論文の概要: Founder effects shape the evolutionary dynamics of multimodality in open LLM families
- arxiv url: http://arxiv.org/abs/2603.22287v1
- Date: Tue, 27 Jan 2026 02:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.968291
- Title: Founder effects shape the evolutionary dynamics of multimodality in open LLM families
- Title(参考訳): 開LLMファミリーの多モード性の進化ダイナミクスを形成する創始者効果
- Authors: Manuel Cebrian,
- Abstract要約: クロスモーダルタスクは、主要なオープンLLMファミリーで一般的になるずっと前に、より広いエコシステムに広まっています。
マルチモーダリティは、希少な創始イベントを通じてオープンなLLMファミリーに入り、その子孫の系統内で急速に拡大する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) families are improving rapidly, yet it remains unclear how quickly multimodal capabilities emerge and propagate within open families. Using the ModelBiome AI Ecosystem dataset of Hugging Face model metadata and recorded lineage fields (>1.8x10^6 model entries), we quantify multimodality over time and along recorded parent-to-child relations. Cross-modal tasks are widespread in the broader ecosystem well before they become common within major open LLM families: within these families, multimodality remains rare through 2023 and most of 2024, then increases sharply in 2024-2025 and is dominated by image-text vision-language tasks. Across major families, the first vision-language model (VLM) variants typically appear months after the first text-generation releases, with lags ranging from ~1 month (Gemma) to more than a year for several families and ~26 months for GLM. Lineage-conditioned transition rates show weak cross-type transfer: among fine-tuning edges from text-generation parents, only 0.218% yield VLM descendants. Instead, multimodality expands primarily within existing VLM lineages: 94.5% of VLM-child fine-tuning edges originate from VLM parents, versus 4.7% from text-generation parents. At the model level, most VLM releases appear as new roots without recorded parents (~60%), while the remainder are predominantly VLM-derived; founder concentration analyses indicate rapid within-lineage amplification followed by diversification. Together, these results show that multimodality enters open LLM families through rare founder events and then expands rapidly within their descendant lineages, producing punctuated adoption dynamics that likely induce distinct, transfer-limited scaling behavior for multimodal capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)ファミリーは急速に改善されているが、オープンファミリー内でのマルチモーダル能力の出現と伝播の速さは、まだ不明である。
本研究では,Hugging Face モデルメタデータと記録系フィールド (>1.8x10^6 モデルエントリ) を用いた ModelBiome AI Ecosystem データセットを用いて,マルチモーダルな時間と親子関係の定量化を行う。
これらの家族の中では、マルチモーダル性は2023年と2024年の大半を通じて稀であり、2024-2025年には急激に増加し、画像テキストの視覚言語タスクに支配されている。
主要な家系全体では、最初の視覚言語モデル(VLM)の変種は、通常、最初のテキスト世代のリリースから数ヶ月後に現れ、1ヶ月(Gemma)から数家族で1年以上、GLMで26ヶ月までの遅れがある。
線形条件の遷移速度は、テキスト生成親からの微調整エッジのうち、VLMの子孫はわずか0.218%である。
VLM系の細調整エッジの94.5%はVLMの両親に由来するが、テキスト世代の両親は4.7%である。
モデルレベルでは、ほとんどのVLMリリースは、記録された親がいない新しいルート(~60%)として現れ、残りは、主にVLM由来である。
これらの結果から、多モード性は希少な創始者イベントを通じてオープンなLLMファミリーに入り、その系統内で急速に拡大し、多モード機能に対して異なる、移動制限されたスケーリング行動を引き起こす可能性のある、句読影力学を生み出すことが示唆された。
関連論文リスト
- Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - Are the LLMs Capable of Maintaining at Least the Language Genus? [5.748049484273442]
種レベルの効果は存在するが、訓練資源の可用性によって強く条件付けされていることを示す。
以上の結果から,LLMは属レベルの構造をコードするが,学習データの不均衡が多言語的性能を形作る主要な要因であることが示唆された。
論文 参考訳(メタデータ) (2025-10-24T15:20:40Z) - GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文 参考訳(メタデータ) (2025-06-18T17:59:49Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling [45.67022392509926]
HiVE-MILは、粗い(5x)と細い(20x)視覚/テキストノード間の親子リンクからなる統一グラフを構築するビジョン言語フレームワークである。
セマンティック一貫性をさらに強化するため、HiVE-MILには2段階のテキスト誘導動的フィルタリング機構が組み込まれている。
TCGA乳がん、肺がん、腎臓がんのデータセットの実験では、HiVE-MILは従来のMILと最近のVLMベースのMILアプローチの両方で一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-23T14:48:32Z) - Nature-Inspired Population-Based Evolution of Large Language Models [58.81047484922555]
本稿では,大規模言語モデル(LLM)の人口ベース進化という,新たな課題を正式に定義する。
我々の枠組みは、人口が4つの重要な操作を通じて進化することを可能にする。
12のデータセットに対する実験により、我々のフレームワークは既存のマルチLLMマージおよびアダプティブメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-03-03T04:03:31Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。