論文の概要: Linear Chain Transformation: Expanding Optimization Dynamics for Fine-Tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2411.00039v1
- Date: Tue, 29 Oct 2024 14:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:34.740222
- Title: Linear Chain Transformation: Expanding Optimization Dynamics for Fine-Tuning Large Language Models
- Title(参考訳): リニアチェイン変換: 微調整大言語モデルのための最適化ダイナミクスの拡張
- Authors: Yulong Wang, Chang Zuo, Yin Xuan, Hong Li, Ni Wei,
- Abstract要約: 線形連鎖変換(LinChain)は、微調整中に線形変換の列を導入し、最適化力学を豊かにする新しい手法である。
複数の線形変換をパラメータ更新プロセスに組み込むことで、LinChainは更新の効果的なランクを拡大し、複雑なタスク固有の表現を学習するモデルの能力を強化する。
各種ベンチマークタスクの実験から,LinChainはより一般化され,学習可能なパラメータが減り,タスク適応性が向上したことが示された。
- 参考スコア(独自算出の注目度): 11.314144876785823
- License:
- Abstract: Fine-tuning large language models (LLMs) has become essential for adapting pretrained models to specific downstream tasks. In this paper, we propose Linear Chain Transformation (LinChain), a novel approach that introduces a sequence of linear transformations during fine-tuning to enrich optimization dynamics. By incorporating multiple linear transformations into the parameter update process, LinChain expands the effective rank of updates and enhances the model's ability to learn complex task-specific representations. We demonstrate that this method significantly improves the performance of LLM fine-tuning over state-of-the-art methods by providing more flexible optimization paths during training, while maintaining the inference efficiency of the resulting model. Our experiments on various benchmark tasks show that LinChain leads to better generalization, fewer learnable parameters, and improved task adaptation, making it a compelling strategy for LLM fine-tuning.
- Abstract(参考訳): 特定の下流タスクに事前訓練されたモデルを適用するには、微調整された大型言語モデル(LLM)が不可欠である。
本稿では, 線形連鎖変換(LinChain)を提案する。これは, 微調整中に線形変換列を導入し, 最適化ダイナミクスを充実させる手法である。
複数の線形変換をパラメータ更新プロセスに組み込むことで、LinChainは更新の効果的なランクを拡大し、複雑なタスク固有の表現を学習するモデルの能力を高める。
本手法は,学習中により柔軟な最適化パスを提供しながら,得られたモデルの推論効率を保ちながら,LLMファインタニングの性能を大幅に向上することを示した。
各種ベンチマークタスクの実験から,LinChainはより一般化され,学習可能なパラメータが少なくなり,タスク適応性が向上し,LCMファインタニングのための魅力的な戦略であることが示唆された。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Group and Shuffle: Efficient Structured Orthogonal Parametrization [3.540195249269228]
構造化された行列の新しいクラスを導入し、以前の研究から構造化されたクラスを統一し一般化する。
我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。
論文 参考訳(メタデータ) (2024-06-14T13:29:36Z) - Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Meta-Learning Parameterized First-Order Optimizers using Differentiable
Convex Optimization [13.043909705693249]
本稿では、内部ループ最適化ステップにおいて、微分凸最適化(DCO)を解くメタラーニングフレームワークを提案する。
線形最小二乗問題の族を一段階最適化できることを示すことによって、このアプローチの理論的魅力を説明する。
論文 参考訳(メタデータ) (2023-03-29T18:17:41Z) - Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。
私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。
最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2022-12-02T09:47:08Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。