論文の概要: GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR
- arxiv url: http://arxiv.org/abs/2601.09361v1
- Date: Wed, 14 Jan 2026 10:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.367723
- Title: GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR
- Title(参考訳): GeoRA:RLVRのための幾何学的低ランク適応
- Authors: Jiaying Zhang, Lei Shi, Jiguo Li, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He,
- Abstract要約: RL更新部分空間の異方性と圧縮性を利用したGeoRAを提案する。
GeoRAは、幾何学的ミスアライメントによる最適化ボトルネックを緩和する。
主要な数学ベンチマークで確立された低ランクのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 10.820638016337869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is crucial for advancing large-scale reasoning models. However, existing parameter-efficient methods, such as PiSSA and MiLoRA, are designed for Supervised Fine-Tuning (SFT) and do not account for the distinct optimization dynamics and geometric structures of RLVR. Applying these methods directly leads to spectral collapse and optimization instability, which severely limit model performance. Meanwhile, alternative approaches that leverage update sparsity encounter significant efficiency bottlenecks on modern hardware due to unstructured computations. To address these challenges, we propose GeoRA (Geometry-Aware Low-Rank Adaptation), which exploits the anisotropic and compressible nature of RL update subspaces. GeoRA initializes adapters by extracting principal directions via Singular Value Decomposition (SVD) within a geometrically constrained subspace while freezing the residual components. This method preserves the pre-trained geometric structure and enables efficient GPU computation through dense operators. Experiments on Qwen and Llama demonstrate that GeoRA mitigates optimization bottlenecks caused by geometric misalignment. It consistently outperforms established low-rank baselines on key mathematical benchmarks, achieving state-of-the-art (SOTA) results. Moreover, GeoRA shows superior generalization and resilience to catastrophic forgetting in out-of-domain tasks.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模推論モデルの発展に不可欠である。
しかし、PiSSAやMiLoRAのような既存のパラメータ効率の手法は、SFT(Supervised Fine-Tuning)のために設計されており、RLVRの異なる最適化力学や幾何構造を考慮していない。
これらの手法を直接適用すると、スペクトル崩壊と最適化の不安定性が生じ、モデルの性能が著しく制限される。
一方、更新間隔を活用する別のアプローチは、非構造化計算のため、現代のハードウェアでかなりの効率のボトルネックに直面する。
これらの課題に対処するために、RL更新部分空間の異方性と圧縮性を利用したGeoRA(Geometry-Aware Low-Rank Adaptation)を提案する。
GeoRAは、残成分を凍結しながら、幾何学的に制約された部分空間内でSingular Value Decomposition (SVD)を介して主方向を抽出することで、アダプタを初期化する。
この方法は、事前学習された幾何学構造を保存し、高密度演算子による効率的なGPU計算を可能にする。
Qwen と Llama の実験により、GeoRA は幾何学的ミスアライメントによる最適化ボトルネックを緩和することを示した。
キーとなる数学ベンチマークで確立された低ランクのベースラインを一貫して上回り、最先端のSOTA(State-of-the-art)結果を達成する。
さらに、GeoRAはドメイン外でのタスクにおいて破滅的な忘れ方に優れた一般化とレジリエンスを示す。
関連論文リスト
- The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation [75.61028930882144]
この重要な問題を特定し定量化し,合成データと実データを用いた場合の3次元物体検出における顕著な性能差を示す。
本稿では,RLGFを用いた強化学習(Reinforcement Learning with Geometric Feedback, RLGF)を紹介する。
RLGFは幾何誤差(例えばVPエラーを21%、深さエラーを57%)を大幅に削減し、3Dオブジェクト検出のmAPを12.7%改善し、実際のデータ性能のギャップを狭める。
論文 参考訳(メタデータ) (2025-09-20T02:23:36Z) - Rolling Ball Optimizer: Learning by ironing out loss landscape wrinkles [19.667068548957143]
大規模ニューラルネットワーク(NN)のトレーニングには,高次元データ依存損失関数の最適化が必要である。
これらの関数は、しばしば非常に複雑で、テクスチャがあり、フラクタル的ですらある。
トレーニングデータのノイズは前方に伝播し、非表現的な小さな幾何学をもたらす。
論文 参考訳(メタデータ) (2025-05-26T05:26:21Z) - OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。
OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。
数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2025-05-20T13:34:06Z) - GeoLoRA: Geometric integration for parameter efficient fine-tuning [6.701651480567394]
Low-Rank Adaptation (LoRA) は、事前学習されたニューラルネットワークのパラメータ効率の高い微調整法として広く使われている。
動的低ランク近似理論を応用した新しいアプローチであるGeoLoRAを導入する。
その結果,GeoLoRAの精度と計算効率の両面において既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T13:26:10Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。