論文の概要: Graph-Based Spectral Decomposition for Parameter Coordination in Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2504.19583v1
- Date: Mon, 28 Apr 2025 08:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.363645
- Title: Graph-Based Spectral Decomposition for Parameter Coordination in Language Model Fine-Tuning
- Title(参考訳): 言語モデルファインチューニングにおけるパラメータコーディネートのためのグラフベーススペクトル分解
- Authors: Hanlu Zhang, Yumeng Ma, Shuo Wang, Guiran Liu, Binrong Zhu,
- Abstract要約: 目標は、訓練中の微調整効率と構造意識の両方を改善することである。
重み付きグラフを構築し、周波数領域モデリングを可能にするためにラプラシアンスペクトル分解を適用した。
最適化フェーズ中にスペクトルフィルタリング機構を導入し、モデルのトレーニング安定性と収束挙動を向上させる。
- 参考スコア(独自算出の注目度): 5.69600290598441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a parameter collaborative optimization algorithm for large language models, enhanced with graph spectral analysis. The goal is to improve both fine-tuning efficiency and structural awareness during training. In the proposed method, the parameters of a pre-trained language model are treated as nodes in a graph. A weighted graph is constructed, and Laplacian spectral decomposition is applied to enable frequency-domain modeling and structural representation of the parameter space. Based on this structure, a joint loss function is designed. It combines the task loss with a spectral regularization term to facilitate collaborative updates among parameters. In addition, a spectral filtering mechanism is introduced during the optimization phase. This mechanism adjusts gradients in a structure-aware manner, enhancing the model's training stability and convergence behavior. The method is evaluated on multiple tasks, including traditional fine-tuning comparisons, few-shot generalization tests, and convergence speed analysis. In all settings, the proposed approach demonstrates superior performance. The experimental results confirm that the spectral collaborative optimization framework effectively reduces parameter perturbations and improves fine-tuning quality while preserving overall model performance. This work contributes significantly to the field of artificial intelligence by advancing parameter-efficient training methodologies for large-scale models, reinforcing the importance of structural signal processing in deep learning optimization, and offering a robust, generalizable framework for enhancing language model adaptability and performance.
- Abstract(参考訳): 本稿では,グラフスペクトル解析により拡張された大規模言語モデルのパラメータ協調最適化アルゴリズムを提案する。
目標は、訓練中の微調整効率と構造意識の両方を改善することである。
提案手法では,事前学習した言語モデルのパラメータをグラフのノードとして扱う。
重み付きグラフを構築し、ラプラシア分光分解を適用し、周波数領域のモデリングとパラメータ空間の構造表現を可能にする。
この構造に基づいて、関節損失関数を設計する。
タスク損失とスペクトル正規化項を組み合わせることで、パラメータ間の協調的な更新を容易にする。
また、最適化段階でスペクトルフィルタリング機構を導入する。
このメカニズムは、構造を意識した方法で勾配を調整し、モデルのトレーニング安定性と収束挙動を高める。
この手法は、従来の微調整比較、数ショットの一般化テスト、収束速度解析など、複数のタスクで評価される。
すべての設定において、提案手法は優れた性能を示す。
実験結果から,スペクトル協調最適化フレームワークはパラメータの摂動を効果的に低減し,モデル全体の性能を保ちながら微調整品質を向上させることを確認した。
本研究は,大規模モデルのパラメータ効率訓練手法の進歩,ディープラーニング最適化における構造信号処理の重要性の強化,言語モデルの適応性と性能向上のための堅牢で汎用的なフレームワークを提供することにより,人工知能の分野に大きく貢献する。
関連論文リスト
- Contextual Gradient Flow Modeling for Large Language Model Generalization in Multi-Scale Feature Spaces [0.0]
マルチスケールの文脈調整を取り入れた構造的勾配改善フレームワークが導入された。
重み更新の階層的な調整は、従来のバックプロパゲーションの代替となった。
構造最適化戦略は不均一なテキスト分布の適応性を保ちながらオーバーフィッティングを緩和する。
論文 参考訳(メタデータ) (2025-02-06T22:57:40Z) - Parameter Tracking in Federated Learning with Adaptive Optimization [14.111863825607001]
フェデレートラーニング(FL)では、モデルトレーニングのパフォーマンスはクライアント間のデータ不均一性に強く影響されます。
GT(Gradient Tracking)は、最近、局所モデル更新に修正項を導入することでこの問題を軽減するソリューションとして登場した。
現在まで、GTはグラディエント(SGD)ベースのDescentトレーニングしか考慮されていないが、現代のFLフレームワークは収束を改善するために適応性を採用する傾向にある。
論文 参考訳(メタデータ) (2025-02-04T21:21:30Z) - Context-Aware Neural Gradient Mapping for Fine-Grained Instruction Processing [0.0]
本稿では、動的勾配調整機構を導入し、文脈埋め込みを直接最適化プロセスに組み込む。
提案するフレームワークは,精度,ノイズに対する堅牢性,計算効率など,さまざまな指標のベースラインモデルよりも一貫して優れている。
文脈固有の埋め込みの統合により、言語をより複雑な理解が可能となり、様々な言語現象を扱うモデルの能力が向上する。
論文 参考訳(メタデータ) (2025-01-24T21:49:24Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Parameter Tuning Strategies for Metaheuristic Methods Applied to
Discrete Optimization of Structural Design [0.0]
本稿では, 鉄筋コンクリート(RC)構造物の設計最適化のためのメタヒューリスティック手法のパラメータを調整するためのいくつかの手法を提案する。
平均性能曲線の下での面積に基づいて, 実用性指標を提案する。
論文 参考訳(メタデータ) (2021-10-12T17:34:39Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - Additive Tree-Structured Covariance Function for Conditional Parameter
Spaces in Bayesian Optimization [34.89735938765757]
木構造関数への加法的仮定を一般化する。
パラメータ空間の構造情報と加法仮定をBOループに組み込むことで,取得関数を最適化する並列アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-21T11:21:55Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。