論文の概要: Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.15973v1
- Date: Wed, 17 Dec 2025 21:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.827482
- Title: Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models
- Title(参考訳): 大規模言語モデルにおける適応型低レベルマルチヘッド自己注意のための動的ランク強化学習
- Authors: Caner Erden,
- Abstract要約: 大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)を提案する。
DR-RLは、浮動小数点演算(FLOP)を著しく低減しつつ、フルランクアテンションと統計的に等価な下流精度を維持している
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約の深層学習におけるランク低減技術に代えて、原理的に数学的に基礎付けられた代替手段を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Dynamic Rank Reinforcement Learning (DR-RL), a novel framework that adaptively optimizes the low-rank factorization of Multi-Head Self-Attention (MHSA) in Large Language Models (LLMs) through the integration of reinforcement learning and online matrix perturbation theory. While traditional low-rank approximations often rely on static rank assumptions--limiting their flexibility across diverse input contexts--our method dynamically selects ranks based on real-time sequence dynamics, layer-specific sensitivities, and hardware constraints. The core innovation lies in an RL agent that formulates rank selection as a sequential policy optimization problem, where the reward function strictly balances attention fidelity against computational latency. Crucially, we employ online matrix perturbation bounds to enable incremental rank updates, thereby avoiding the prohibitive cost of full decomposition during inference. Furthermore, the integration of a lightweight Transformer-based policy network and batched Singular Value Decomposition (SVD) operations ensures scalable deployment on modern GPU architectures. Experiments demonstrate that DR-RL maintains downstream accuracy statistically equivalent to full-rank attention while significantly reducing Floating Point Operations (FLOPs), particularly in long-sequence regimes (L > 4096). This work bridges the gap between adaptive efficiency and theoretical rigor in MHSA, offering a principled, mathematically grounded alternative to heuristic rank reduction techniques in resource-constrained deep learning. Source code and experiment logs are available at: https://github.com/canererden/DR_RL_Project
- Abstract(参考訳): 大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)について,強化学習とオンライン行列摂動理論の統合により提案する。
従来の低ランク近似は静的ランクの仮定(様々な入力コンテキストにまたがる柔軟性を制限する)に依存することが多いが、我々の手法はリアルタイムシーケンスのダイナミックス、層固有の感度、ハードウェアの制約に基づいてランクを動的に選択する。
中心となる革新は、ランク選択をシーケンシャルなポリシー最適化問題として定式化するRLエージェントにあり、報酬関数は計算遅延に対する注意の忠実さを厳密にバランスさせる。
重要なことは、オンライン行列摂動境界を用いて、インクリメンタルなランク更新を可能にし、推論中の完全分解の禁止コストを回避することである。
さらに、軽量なTransformerベースのポリシネットワークとバッチ化されたSingular Value Decomposition(SVD)操作の統合により、現代的なGPUアーキテクチャへのスケーラブルなデプロイメントが保証される。
実験により、DR-RLはフルランクアテンションと統計的に等価な下流精度を維持しつつ、浮動小数点演算(FLOP)を著しく低減し、特に長周期状態において(L > 4096)。
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約されたディープラーニングにおけるヒューリスティックなランク低減技術に代わる、原理的、数学的に基礎付けられた代替手段を提供する。
ソースコードと実験ログは、https://github.com/canererden/DR_RL_Projectで入手できる。
関連論文リスト
- Meta Hierarchical Reinforcement Learning for Scalable Resource Management in O-RAN [9.290879387995401]
本稿では,モデル非依存型メタラーニング(MAML)に触発された適応型メタ階層型強化学習フレームワークを提案する。
このフレームワークは階層的な制御とメタラーニングを統合し、グローバルとローカルの両方の適応を可能にする。
ネットワークスケールの増加に伴い、適応と一貫性のある公平性、レイテンシ、スループットのパフォーマンスが最大40%向上する。
論文 参考訳(メタデータ) (2025-12-08T08:16:27Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。
OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。
数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2025-05-20T13:34:06Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Advanced deep-reinforcement-learning methods for flow control: group-invariant and positional-encoding networks improve learning speed and quality [0.7421845364041001]
本研究は,流路制御のための深部強化学習法(DRL)の進歩である。
グループ不変ネットワークと位置エンコーディングをDRLアーキテクチャに統合することに注力する。
提案手法はRayleigh-B'enard対流のケーススタディを用いて検証した。
論文 参考訳(メタデータ) (2024-07-25T07:24:41Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。