論文の概要: BitRL: Reinforcement Learning with 1-bit Quantized Language Models for Resource-Constrained Edge Deployment
- arxiv url: http://arxiv.org/abs/2604.24273v1
- Date: Mon, 27 Apr 2026 10:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.887031
- Title: BitRL: Reinforcement Learning with 1-bit Quantized Language Models for Resource-Constrained Edge Deployment
- Title(参考訳): BitRL:リソース制約エッジ展開のための1ビット量子言語モデルによる強化学習
- Authors: Md. Ashiq Ul Islam Sajid, Mohammad Sakib Mahmood, Md. Tareq Hasan, Md Abdur Rahim, Rafat Ara, Md. Arafat Hossain,
- Abstract要約: BitRLは1ビット量子化言語モデルを用いてRLエージェントを構築するためのフレームワークである。
我々のフレームワークは1ビットの量子化言語モデルと強化学習を統合してエッジ展開を行う。
- 参考スコア(独自算出の注目度): 0.9250734666093573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of intelligent reinforcement learning (RL) agents on resource-constrained edge devices remains a fundamental challenge due to the substantial memory, computational, and energy requirements of modern deep learning systems. While large language models (LLMs) have emerged as powerful architectures for decision-making agents, their multi-billion parameter scale confines them to cloud-based deployment, raising concerns about latency, privacy, and connectivity dependence. We introduce BitRL, a framework for building RL agents using 1-bit quantized language models that enables practical on-device learning and inference under severe resource constraints. Leveraging the BitNet b1.58 architecture with ternary weights (-1, 0, +1) and an optimized inference stack, BitRL achieves 10-16x memory reduction and 3-5x energy efficiency improvements over full-precision baselines while maintaining 85-98 percent of task performance across benchmarks. We provide theoretical analysis of quantization as structured parameter perturbation, derive convergence bounds for quantized policy gradients under frozen-backbone architectures, and identify the exploration-stability trade-off in extreme quantization. Our framework systematically integrates 1-bit quantized language models with reinforcement learning for edge deployment and demonstrates effectiveness on commodity hardware.
- Abstract(参考訳): 知的強化学習(RL)エージェントの資源制約されたエッジデバイスへの展開は、現代のディープラーニングシステムのかなりのメモリ、計算、エネルギー要求のため、依然として根本的な課題である。
大きな言語モデル(LLM)は意思決定エージェントの強力なアーキテクチャとして登場したが、そのマルチビリオンパラメータスケールは、それらをクラウドベースのデプロイメントに制限し、レイテンシ、プライバシ、接続依存性に関する懸念を高めている。
本稿では、1ビット量子化言語モデルを用いてRLエージェントを構築するためのフレームワークBitRLを紹介する。
3次重み(1,0,+1)と最適化推論スタックを備えたBitNet b1.58アーキテクチャを利用することで、ベンチマーク全体のタスクパフォーマンスの85~98%を維持しながら、10~16倍のメモリ削減と3~5倍のエネルギー効率向上を実現している。
本稿では, 構造パラメータ摂動としての量子化の理論解析, 凍結バックボーンアーキテクチャの下での量子化政策勾配に対する収束境界の導出, 極端量子化における探索-安定トレードオフの同定について述べる。
本フレームワークは1ビットの量子化言語モデルとエッジ展開のための強化学習を体系的に統合し,コモディティハードウェア上での有効性を実証する。
関連論文リスト
- Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Deploying Large AI Models on Resource-Limited Devices with Split Federated Learning [39.73152182572741]
本稿では、SFLAM(Quantized Split Federated Fine-Tuning Large AI Model)と呼ばれる新しいフレームワークを提案する。
エッジデバイスとサーバ間のトレーニング負荷を分割することで、SFLAMはデバイス上の大規模なモデルの操作を容易にすることができる。
SFLAMは、トレーニング効率を高めるために、量子化管理、電力制御、帯域幅割り当て戦略を取り入れている。
論文 参考訳(メタデータ) (2025-04-12T07:55:11Z) - Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。
このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。
本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文 参考訳(メタデータ) (2025-03-12T07:01:34Z) - On Accelerating Edge AI: Optimizing Resource-Constrained Environments [1.7355861031903428]
リソース制約のあるエッジデプロイメントでは、厳格な計算、メモリ、エネルギー制限とハイパフォーマンスのバランスをとるAIソリューションが要求される。
本稿では,このような制約下でのディープラーニングモデルを加速するための主要な戦略について概観する。
論文 参考訳(メタデータ) (2025-01-25T01:37:03Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。