論文の概要: GRASP LoRA: GRPO Guided Adapter Sparsity Policy for Cross Lingual Transfer
- arxiv url: http://arxiv.org/abs/2601.06702v1
- Date: Sat, 10 Jan 2026 22:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.945818
- Title: GRASP LoRA: GRPO Guided Adapter Sparsity Policy for Cross Lingual Transfer
- Title(参考訳): GRASP LoRA:GRPOガイドによるクロスリンガルトランスファーのためのアダプタスペーサポリシー
- Authors: Besher Hassan, Xiuying Chen,
- Abstract要約: 本稿では,グローバル空間を学習可能な制御変数として扱うGRASP LoRA(GRPO Guided Adapter Sparsity Policy)を紹介する。
GRPOコントローラは、小さなマイクロ開発セット上で定期的に候補プルーネ比を探索する訓練とインターリーブする。
グリッドサーチをプルー比を学習する1つのコントローラランに置き換え、続いて1つの最終マージとプルーファインチューニングランと、その比率に固定されたプルーニングに置き換える。
- 参考スコア(独自算出の注目度): 19.2547330085357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter efficient fine tuning is a way to adapt LLMs to new languages when compute or data are limited, yet adapter pipelines usually choose a global prune ratio by grid search. This practice is computationally expensive and development set intensive, since it repeats training, freezes sparsity, and misses fractional optima. We introduce GRASP LoRA (GRPO Guided Adapter Sparsity Policy), which treats global sparsity as a learnable control variable. A GRPO controller interleaves with training, periodically probing candidate prune ratios on a small micro development set and updating a single global prune ratio online from its reward signal. It operates on merged source and target LoRA adapters on a frozen backbone and replaces grid search with one controller run that learns a prune ratio, followed by a single final merge and prune fine tuning run with pruning fixed to that ratio. On cross lingual transfer from English into Arabic and Chinese, including XL-Sum summarization and MLQA extractive question answering with Llama 3 8B, GRASP LoRA improves semantic faithfulness, content coverage, and answer quality over strong target only and merge and prune baselines. It reduces end to end runtime by multiple times relative to grid search, lowers reliance on large development sets, and makes adapter reuse practical for low resource deployment.
- Abstract(参考訳): パラメータ効率のよい微調整は、計算やデータに制限がある場合、LLMを新しい言語に適応させる方法であるが、アダプタパイプラインは通常、グリッドサーチによってグローバルプルー比を選択する。
このプラクティスは計算的に高価であり、トレーニングを繰り返し、スパーシティを凍結し、分数オプティマを見逃すため、開発セットが集中的に行われる。
本稿では,グローバル空間を学習可能な制御変数として扱うGRASP LoRA(GRPO Guided Adapter Sparsity Policy)を紹介する。
GRPOコントローラは、トレーニングとインターリーブし、小さなマイクロ開発セット上で定期的に候補プルーネ比を探索し、報酬信号から1つのグローバルプルーネ比をオンライン更新する。
フリーズバックボーン上でマージされたソースとターゲットのLoRAアダプタで動作し、グリッド検索をプルー比を学習する1つのコントローラランに置き換え、続いて1つのファイナルマージとプルーファインチューニングランと、その比率に固定されたプルーニングに置き換える。
XL-Sum summarization や MLQA extractive questioninging with Llama 3 8B, GRASP LoRA is improves semantic faithfulness, content coverage, and answer quality on strong target only and merge and prune baselines。
グリッド検索と比較して、エンドツーエンドのランタイムを複数回削減し、大規模な開発セットへの依存を低減し、低リソースのデプロイにアダプタの再利用を実用的なものにします。
関連論文リスト
- Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems [11.584593298674688]
Low-Rank Adaptation (LoRA)は,大規模言語モデル(LLM)のパラメータ効率向上のためのデファクト手法となった。
プロダクションでは、LoRAベースのモデルが大規模に提供され、数百のアダプタがベースモデルを共有するマルチテナント環境を生成する。
作業負荷を考慮した動的アダプタ配置とルーティングフレームワークであるLoRAServeについて述べる。
論文 参考訳(メタデータ) (2025-11-28T05:04:02Z) - CoLoR-GAN: Continual Few-Shot Learning with Low-Rank Adaptation in Generative Adversarial Networks [2.182044445509816]
CoLoR-GANはFSとCLを一緒に扱うように設計されたフレームワークである。
我々は,本モデルがSOTA性能に到達しながら,膨大なリソースを削減できることを示す。
論文 参考訳(メタデータ) (2025-10-13T12:13:32Z) - GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval [19.73916326078242]
CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。
コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。
GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
論文 参考訳(メタデータ) (2025-09-27T15:36:59Z) - Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse [49.1574468325115]
フレキシブルレートトランスポンダを用いた固定グリッドネットワーク上でのルーティングとスペクトル割り当ての強化学習について検討する。
RWA-LRは総長ではなくホップ数によって候補経路が順序づけられたときのスループットが6%向上することを示す。
我々はRWA-LRのためのRLエージェントをポリシーと値関数のためのグラフアテンションネットワークで訓練し、グラフ構造化データを利用する。
論文 参考訳(メタデータ) (2025-02-20T17:10:11Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。