論文の概要: Structured Gradient Guidance for Few-Shot Adaptation in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.00726v1
- Date: Sat, 31 May 2025 21:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.670029
- Title: Structured Gradient Guidance for Few-Shot Adaptation in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるFew-Shot適応のための構造的グラディエントガイダンス
- Authors: Hongye Zheng, Yichen Wang, Ray Pan, Guiran Liu, Binrong Zhu, Hanlu Zhang,
- Abstract要約: 目標は、データが制限された場合のタスク適応性とトレーニングの安定性を高めることだ。
この手法は基底損失関数に基づいて構築され、2つの勾配関連正規化項を導入する。
クロスタスクの一般化をさらに改善するため、勾配アライメント機構が組み込まれている。
- 参考スコア(独自算出の注目度): 0.4272783864394567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a gradient-informed fine-tuning method for large language models under few-shot conditions. The goal is to enhance task adaptability and training stability when data is limited. The method builds on a base loss function and introduces two gradient-related regularization terms. The first enforces gradient direction consistency to guide parameter updates along task-relevant directions and prevent drift. The second controls gradient magnitude to avoid abnormal updates. Together, these components support a more efficient and stable optimization path. To further improve cross-task generalization, the method incorporates a gradient alignment mechanism. This mechanism measures the consistency between optimization directions of the source and target tasks. It enhances fine-tuning performance in multi-task and cross-domain scenarios. Across various natural language understanding tasks, the method outperforms existing fine-tuning strategies in average accuracy, gradient stability, and directional alignment. Empirical evaluations under different sample sizes and domain-specific tasks confirm the method's robustness and broad applicability in low-resource environments. In particular, the method shows clear advantages in controlling parameter update paths. The results demonstrate that a gradient-based fine-tuning framework can effectively leverage the representational power of large language models. It ensures training stability while reducing dependence on large volumes of labeled data.
- Abstract(参考訳): 本稿では,数ショット条件下での大規模言語モデルの勾配インフォームド微調整法を提案する。
目標は、データが制限された場合のタスク適応性とトレーニングの安定性を高めることだ。
この手法は基底損失関数に基づいて構築され、2つの勾配関連正規化項を導入する。
1つ目は、勾配方向の一貫性を強制し、タスク関連方向に沿ってパラメータ更新をガイドし、ドリフトを防ぐ。
2つめは、異常な更新を避けるために勾配等級を制御する。
これらのコンポーネントは、より効率的で安定した最適化パスをサポートする。
クロスタスクの一般化をさらに改善するため、勾配アライメント機構が組み込まれている。
このメカニズムは、ソースの最適化方向とターゲットタスクの整合性を測定する。
マルチタスクおよびクロスドメインシナリオにおける微調整性能を向上させる。
様々な自然言語理解タスクにおいて、この手法は、平均精度、勾配安定性、方向性アライメントにおいて既存の微調整戦略より優れている。
サンプルサイズやドメイン固有のタスクの違いによる実証評価により,低リソース環境における手法の堅牢性と広い適用性が確認された。
特に,パラメータ更新経路の制御において明らかな利点を示す。
その結果、勾配に基づく微調整フレームワークは、大規模言語モデルの表現力を効果的に活用できることを示した。
大量のラベル付きデータへの依存を低減しつつ、トレーニングの安定性を確保する。
関連論文リスト
- Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Fantastic Multi-Task Gradient Updates and How to Find Them In a Cone [14.702480423653984]
我々は,制約付き最適化問題として定式化された,原則付き,スケーラブルで,堅牢なMTLアプローチであるConicGradを提案する。
本手法では, 傾き更新方向を動的に調節する角度制約を導入し, 全体目標の基準勾配を中心とする円錐内に収束させる。
我々は,標準的な教師付き学習と強化学習のMTLベンチマークに関する広範な実験を行い,様々なタスクにおいて,コニックグラッドが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-01-31T23:11:12Z) - Context-Aware Neural Gradient Mapping for Fine-Grained Instruction Processing [0.0]
本稿では、動的勾配調整機構を導入し、文脈埋め込みを直接最適化プロセスに組み込む。
提案するフレームワークは,精度,ノイズに対する堅牢性,計算効率など,さまざまな指標のベースラインモデルよりも一貫して優れている。
文脈固有の埋め込みの統合により、言語をより複雑な理解が可能となり、様々な言語現象を扱うモデルの能力が向上する。
論文 参考訳(メタデータ) (2025-01-24T21:49:24Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - SSGD: A safe and efficient method of gradient descent [0.5099811144731619]
勾配降下法は様々な最適化問題を解く上で重要な役割を果たしている。
超勾配降下法による勾配長の隠蔽によるパラメータの更新
我々のアルゴリズムは勾配に対する攻撃に対して防御できる。
論文 参考訳(メタデータ) (2020-12-03T17:09:20Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。