論文の概要: Configurable Foundation Models: Building LLMs from a Modular Perspective
- arxiv url: http://arxiv.org/abs/2409.02877v1
- Date: Wed, 4 Sep 2024 17:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 16:52:09.834238
- Title: Configurable Foundation Models: Building LLMs from a Modular Perspective
- Title(参考訳): 構成可能なファンデーションモデル: モジュールの観点からLLMを構築する
- Authors: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun,
- Abstract要約: LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
- 参考スコア(独自算出の注目度): 115.63847606634268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks - functional neuron partitions that emerge during the pre-training phase, and customized bricks - bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.
- Abstract(参考訳): LLMの進歩は、計算効率と、巨大なパラメータの要求による継続的なスケーラビリティに関連する課題を最近明らかにした。
人間の脳内のモジュラリティに触発され、LSMを多数の機能モジュールに分解する傾向が強まり、モジュールの一部とモジュールの動的アセンブリーが、エキスパートの混合のような複雑なタスクに取り組むことができるようになった。
モジュラー手法の本質的な効率性と構成性を強調するために,各機能モジュールを表すブロックという用語を考案し,モジュール化された構造を構成可能な基礎モデルとして定義する。
本稿では, 構成可能な基礎モデルの構築, 利用, 限界について概観し, 検討する。
まず、モジュールを初期化して、事前学習フェーズに現れる機能的ニューロンパーティションと、追加のポストトレーニングを通じて構築されたブロックに分類し、LCMの機能と知識を改善する。
さまざまな機能的ブロックに基づいて,検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
これらの操作により、複雑なタスクを処理する命令に基づいてLLMを動的に設定できる。
我々の視点を検証するために、広く使われているLLMの実証分析を行った。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
最後に、今後の研究に向けて、いくつかのオープンな課題と方向性を強調します。
本稿は,既存のLLM研究の新たなモジュール化の視点を提供し,より効率的でスケーラブルな基礎モデルの構築を促すことを目的としている。
関連論文リスト
- Xiwu: A Basis Flexible and Learnable LLM for High Energy Physics [8.483323041108774]
大規模言語モデル(LLM)は、急激な更新と変更の期間を経ている。
モデル自体を前進させながら、ユニークなドメイン知識を取得することは困難です。
Xiwuという名前の高度な大規模言語モデルシステムが開発され、最も先進的な基礎モデルの切り替えが可能になった。
論文 参考訳(メタデータ) (2024-04-08T07:37:31Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - From Static to Dynamic: A Continual Learning Framework for Large
Language Models [41.59643329735528]
本稿では,大規模言語モデル(LLM)のための新しい連続学習フレームワークであるDynaMindについて述べる。
DynaMindはメモリ機構を導入し、新しい知識とモジュラー演算子を同化してモデル推論プロセスを強化する。
ベンチマーク実験は、これらの課題を克服するDynaMindの有効性を実証している。
論文 参考訳(メタデータ) (2023-10-22T10:18:53Z) - A Prefrontal Cortex-inspired Architecture for Planning in Large Language
Models [16.475564538598768]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
我々はヒト脳からインスピレーションを受け、前頭前皮質(PFC)の特殊モジュールの反復的相互作用によって計画が達成される。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。