論文の概要: GradientSpace: Unsupervised Data Clustering for Improved Instruction Tuning
- arxiv url: http://arxiv.org/abs/2512.06678v1
- Date: Sun, 07 Dec 2025 06:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.464796
- Title: GradientSpace: Unsupervised Data Clustering for Improved Instruction Tuning
- Title(参考訳): GradientSpace: 教師なしデータクラスタリングによるインストラクションチューニングの改善
- Authors: Shrihari Sridharan, Deepak Ravikumar, Anand Raghunathan, Kaushik Roy,
- Abstract要約: GradientSpaceは、全次元勾配空間でサンプルを直接クラスタするフレームワークである。
オンラインSVDベースのアルゴリズムをLoRA勾配上で動作させ,全てのサンプル勾配を格納するコストを伴わずに潜伏スキルを識別する。
単一で適切な専門家へのルーティングは、事前作業で使用する専門家のアンサンブルよりも優れ、推論遅延を著しく低減することを示す。
- 参考スコア(独自算出の注目度): 13.559381851907778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning is one of the key steps required for adapting large language models (LLMs) to a broad spectrum of downstream applications. However, this procedure is difficult because real-world datasets are rarely homogeneous; they consist of a mixture of diverse information, causing gradient interference, where conflicting gradients pull the model in opposing directions, degrading performance. A common strategy to mitigate this issue is to group data based on semantic or embedding similarity. However, this fails to capture how data influences model parameters during learning. While recent works have attempted to cluster gradients directly, they randomly project gradients into lower dimensions to manage memory, which leads to accuracy loss. Moreover, these methods rely on expert ensembles which necessitates multiple inference passes and expensive on-the-fly gradient computations during inference. To address these limitations, we propose GradientSpace, a framework that clusters samples directly in full-dimensional gradient space. We introduce an online SVD-based algorithm that operates on LoRA gradients to identify latent skills without the infeasible cost of storing all sample gradients. Each cluster is used to train a specialized LoRA expert along with a lightweight router trained to select the best expert during inference. We show that routing to a single, appropriate expert outperforms expert ensembles used in prior work, while significantly reducing inference latency. Our experiments across mathematical reasoning, code generation, finance, and creative writing tasks demonstrate that GradientSpace leads to coherent expert specialization and consistent accuracy gains over state-of-the-art clustering methods and finetuning techniques.
- Abstract(参考訳): インストラクションチューニングは、大規模な言語モデル(LLM)を幅広い下流アプリケーションに適応させるのに必要な重要なステップの1つである。
しかし、この手順は、現実のデータセットが同質であることはめったにないため困難であり、それらは様々な情報が混在し、勾配干渉を引き起こし、対立する勾配が反対方向にモデルを引き寄せ、性能を低下させる。
この問題を緩和するための一般的な戦略は、セマンティックや埋め込み類似性に基づいたデータをグループ化することである。
しかし、これは学習中にデータがモデルパラメータに与える影響を捉えるのに失敗する。
最近の研究では、勾配を直接クラスタ化しようと試みているが、メモリ管理のために低次元にランダムに勾配を投影し、精度の低下につながっている。
さらに、これらの手法は、複数の推論パスを必要とするエキスパートアンサンブルと、推論中に高価なオンザフライ勾配計算に依存する。
これらの制約に対処するため,全次元勾配空間でサンプルを直接クラスタリングするフレームワークであるGradientSpaceを提案する。
オンラインSVDベースのアルゴリズムをLoRA勾配上で動作させ,全てのサンプル勾配を格納するコストを伴わずに潜伏スキルを識別する。
各クラスタは、特殊なLoRA専門家のトレーニングに使用され、推論中に最高の専門家を選択するためにトレーニングされた軽量ルータが使用される。
単一で適切な専門家へのルーティングは、事前作業で使用する専門家のアンサンブルよりも優れ、推論遅延を著しく低減することを示す。
数学的推論,コード生成,ファイナンス,創造的記述タスクに対する我々の実験は,GradientSpaceが最先端のクラスタリング手法や微調整技術よりも,一貫性のある専門家の専門化と一貫した精度向上につながることを示した。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。
勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。
我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-01-14T02:33:40Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - A Historical Trajectory Assisted Optimization Method for Zeroth-Order Federated Learning [24.111048817721592]
フェデレートラーニングは分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配をゼロ次情報から推定する必要がある。
勾配推定法を改善するための非等方的サンプリング法を提案する。
論文 参考訳(メタデータ) (2024-09-24T10:36:40Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - The Manifold Hypothesis for Gradient-Based Explanations [55.01671263121624]
勾配に基づく説明アルゴリズムは知覚的に整合した説明を提供する。
特徴属性がデータの接する空間と一致しているほど、知覚的に一致している傾向にあることを示す。
説明アルゴリズムは、その説明をデータ多様体と整合させるよう積極的に努力すべきである。
論文 参考訳(メタデータ) (2022-06-15T08:49:24Z) - Style Curriculum Learning for Robust Medical Image Segmentation [62.02435329931057]
深部セグメンテーションモデルは、トレーニングデータセットとテストデータセットの間の画像強度の分散シフトによって、しばしば劣化する。
本稿では,そのような分散シフトが存在する場合に,ロバストなセグメンテーションを確保するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-01T08:56:24Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。