Fugu-MT 論文翻訳(概要): Configurable Foundation Models: Building LLMs from a Modular Perspective

論文の概要: Configurable Foundation Models: Building LLMs from a Modular Perspective

arxiv url: http://arxiv.org/abs/2409.02877v1
Date: Wed, 4 Sep 2024 17:01:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 16:52:09.834238
Title: Configurable Foundation Models: Building LLMs from a Modular Perspective
Title（参考訳）: 構成可能なファンデーションモデル: モジュールの観点からLLMを構築する
Authors: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun,
Abstract要約: LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。 FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
参考スコア（独自算出の注目度）: 115.63847606634268
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advancements in LLMs have recently unveiled challenges tied to computational efficiency and continual scalability due to their requirements of huge parameters, making the applications and evolution of these models on devices with limited computation resources and scenarios requiring various abilities increasingly cumbersome. Inspired by modularity within the human brain, there is a growing tendency to decompose LLMs into numerous functional modules, allowing for inference with part of modules and dynamic assembly of modules to tackle complex tasks, such as mixture-of-experts. To highlight the inherent efficiency and composability of the modular approach, we coin the term brick to represent each functional module, designating the modularized structure as configurable foundation models. In this paper, we offer a comprehensive overview and investigation of the construction, utilization, and limitation of configurable foundation models. We first formalize modules into emergent bricks - functional neuron partitions that emerge during the pre-training phase, and customized bricks - bricks constructed via additional post-training to improve the capabilities and knowledge of LLMs. Based on diverse functional bricks, we further present four brick-oriented operations: retrieval and routing, merging, updating, and growing. These operations allow for dynamic configuration of LLMs based on instructions to handle complex tasks. To verify our perspective, we conduct an empirical analysis on widely-used LLMs. We find that the FFN layers follow modular patterns with functional specialization of neurons and functional neuron partitions. Finally, we highlight several open issues and directions for future research. Overall, this paper aims to offer a fresh modular perspective on existing LLM research and inspire the future creation of more efficient and scalable foundational models.
Abstract（参考訳）: LLMの進歩は、計算効率と、巨大なパラメータの要求による継続的なスケーラビリティに関連する課題を最近明らかにした。人間の脳内のモジュラリティに触発され、LSMを多数の機能モジュールに分解する傾向が強まり、モジュールの一部とモジュールの動的アセンブリーが、エキスパートの混合のような複雑なタスクに取り組むことができるようになった。モジュラー手法の本質的な効率性と構成性を強調するために,各機能モジュールを表すブロックという用語を考案し,モジュール化された構造を構成可能な基礎モデルとして定義する。本稿では, 構成可能な基礎モデルの構築, 利用, 限界について概観し, 検討する。まず、モジュールを初期化して、事前学習フェーズに現れる機能的ニューロンパーティションと、追加のポストトレーニングを通じて構築されたブロックに分類し、LCMの機能と知識を改善する。さまざまな機能的ブロックに基づいて,検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。これらの操作により、複雑なタスクを処理する命令に基づいてLLMを動的に設定できる。我々の視点を検証するために、広く使われているLLMの実証分析を行った。 FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。最後に、今後の研究に向けて、いくつかのオープンな課題と方向性を強調します。本稿は,既存のLLM研究の新たなモジュール化の視点を提供し,より効率的でスケーラブルな基礎モデルの構築を促すことを目的としている。

関連論文リスト

ModuLM: Enabling Modular and Multimodal Molecular Relational Learning with Large Language Models [15.585313548455517]
分子学習は分子対間の相互作用を理解することを目的としており、生化学研究の進展に重要な役割を果たしている。近年の大規模言語モデル (LLM) の発展に伴い, MRL と LLM の統合に関する研究が増えている。フレキシブルLLMモデル構築と多様な分子表現をサポートするためのフレームワークであるModuLMを提案する。
論文参考訳（メタデータ） (2025-06-01T07:44:16Z)
Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [45.05285463251872]
我々は,新世代の大規模言語モデル(LLM)に不可欠なアプローチとして,新しい学習パラダイム - Modular Machine Learning (MML) を導入する。 MMLは、LLMの複雑な構造を、モジュラー表現、モジュラーモデル、モジュラー推論の3つの相互依存コンポーネントに分解する。本稿では,非絡み合い表現学習,ニューラルアーキテクチャ探索,ニューロシンボリック学習などの高度な技術を活用して,MLに基づくLLMの実現の可能性を示す。
論文参考訳（メタデータ） (2025-04-28T17:42:02Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
A Survey on Large Language Models with some Insights on their Capabilities and Limitations [0.3222802562733786]
大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。 LLMは、そのコア機能を超えて、創発的な能力を示す。本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
論文参考訳（メタデータ） (2025-01-03T21:04:49Z)
APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文参考訳（メタデータ） (2024-11-26T09:31:28Z)
On Evaluating LLMs' Capabilities as Functional Approximators: A Bayesian Perspective [37.51471397123902]
本稿では,大規模言語モデルの関数モデリング能力を包括的に評価するための新しい評価フレームワークを提案する。関数モデリングのベイズ的視点を採用することで、LLMは生データのパターンの理解に比較的弱いが、基礎となる関数の理解を深めるために、ドメインに関する事前知識を活用することに長けていることが分かる。
論文参考訳（メタデータ） (2024-10-06T16:30:47Z)
Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文参考訳（メタデータ） (2024-03-27T17:50:00Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
From Static to Dynamic: A Continual Learning Framework for Large Language Models [41.59643329735528]
本稿では,大規模言語モデル(LLM)のための新しい連続学習フレームワークであるDynaMindについて述べる。 DynaMindはメモリ機構を導入し、新しい知識とモジュラー演算子を同化してモデル推論プロセスを強化する。ベンチマーク実験は、これらの課題を克服するDynaMindの有効性を実証している。
論文参考訳（メタデータ） (2023-10-22T10:18:53Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。