論文の概要: Chain-of-Model Learning for Language Model
- arxiv url: http://arxiv.org/abs/2505.11820v2
- Date: Fri, 23 May 2025 08:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 13:31:15.755959
- Title: Chain-of-Model Learning for Language Model
- Title(参考訳): 言語モデルのためのモデル学習の連鎖
- Authors: Kaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen LU, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu,
- Abstract要約: 本稿では,各レイヤの隠れ状態に因果関係を組み込んだ新しい学習パラダイムであるChain-of-Model(CoM)を提案する。
本稿では, 各層に隠された状態を, 隠された次元の複数の部分表現(すなわち鎖)の組み合わせとして定式化する, チェーン・オブ・表現(CoR)の概念を紹介する。
さらに,COLMをベースとしたKV共有機構を導入し,第1チェーン内のキーと値を計算し,全チェーン間で共有する。
- 参考スコア(独自算出の注目度): 91.81240728426994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a novel learning paradigm, termed Chain-of-Model (CoM), which incorporates the causal relationship into the hidden states of each layer as a chain style, thereby introducing great scaling efficiency in model training and inference flexibility in deployment. We introduce the concept of Chain-of-Representation (CoR), which formulates the hidden states at each layer as a combination of multiple sub-representations (i.e., chains) at the hidden dimension level. In each layer, each chain from the output representations can only view all of its preceding chains in the input representations. Consequently, the model built upon CoM framework can progressively scale up the model size by increasing the chains based on the previous models (i.e., chains), and offer multiple sub-models at varying sizes for elastic inference by using different chain numbers. Based on this principle, we devise Chain-of-Language-Model (CoLM), which incorporates the idea of CoM into each layer of Transformer architecture. Based on CoLM, we further introduce CoLM-Air by introducing a KV sharing mechanism, that computes all keys and values within the first chain and then shares across all chains. This design demonstrates additional extensibility, such as enabling seamless LM switching, prefilling acceleration and so on. Experimental results demonstrate our CoLM family can achieve comparable performance to the standard Transformer, while simultaneously enabling greater flexiblity, such as progressive scaling to improve training efficiency and offer multiple varying model sizes for elastic inference, paving a a new way toward building language models. Our code will be released in the future at: https://github.com/microsoft/CoLM.
- Abstract(参考訳): 本稿では,各レイヤの隠れ状態に因果関係を組み込んだ新しい学習パラダイムであるChain-of-Model(CoM)を提案する。
本稿では, 各層に隠された状態を, 隠された次元の複数の部分表現(すなわち鎖)の組み合わせとして定式化する, チェーン・オブ・表現(CoR)の概念を紹介する。
各層において、出力表現からの各チェーンは、入力表現における前のチェーンの全てを見ることができる。
このため、CoMフレームワーク上に構築されたモデルは、以前のモデル(例えばチェーン)に基づいてチェーンを拡大することにより、モデルサイズを段階的にスケールアップし、異なるチェーン数を用いて弾性推論のために、様々なサイズで複数のサブモデルを提供することができる。
この原理に基づいて,CoMの考え方をトランスフォーマーアーキテクチャの各層に取り入れた,CoLM(Chain-of-Language-Model)を考案した。
さらに,COLMをベースとしたKV共有機構を導入し,第1チェーン内のキーと値を計算し,全チェーン間で共有する。
この設計は、シームレスなLMスイッチング、アクセラレーションのプリフィルなど、さらなる拡張性を示している。
実験の結果,CoLMファミリは標準のTransformerに匹敵する性能を実現すると同時に,トレーニング効率を向上させるためのプログレッシブスケーリングや,弾力的推論のための複数のモデルサイズの提供,言語モデル構築への新たな方法の確立など,柔軟性の向上を実現している。
私たちのコードは将来、https://github.com/microsoft/COLM.comでリリースされます。
関連論文リスト
- Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。
CBMには、さらなる概念のセットが必要である。
CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-04-04T09:43:43Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - AI Chains: Transparent and Controllable Human-AI Interaction by Chaining
Large Language Model Prompts [12.73129785710807]
ステップの出力が次のステップの入力となり、ステップごとの利得が集約される。
20人のユーザスタディにおいて、チェインはタスクの結果の質を向上するだけでなく、システムの透明性、制御可能性、コラボレーションの感覚を著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-10-04T19:59:38Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。