論文の概要: QuantClaw: Precision Where It Matters for OpenClaw
- arxiv url: http://arxiv.org/abs/2604.22577v1
- Date: Fri, 24 Apr 2026 14:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.49256
- Title: QuantClaw: Precision Where It Matters for OpenClaw
- Title(参考訳): QuantClaw: OpenClawにとって重要な精度
- Authors: Manyi Zhang, Ji-Fu Li, Zhongao Sun, Xiaohao Liu, Zhenhua Dong, Xianzhi Yu, Haoli Bai, Xiaobo Xia,
- Abstract要約: QuantClawは、タスク特性に応じて動的に精度を割り当てるプラグインである。
GLM-5(FP8ベースライン)の最大21.4%のコスト削減と15.7%のレイテンシ削減を実現している。
これらの結果はエージェントシステムにおける動的リソースとして精度を扱う利点を浮き彫りにする。
- 参考スコア(独自算出の注目度): 32.815891374602025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agent systems such as OpenClaw introduce significant efficiency challenges due to long-context inputs and multi-turn reasoning. This results in prohibitively high computational and monetary costs in real-world development. While quantization is a standard approach for reducing cost and latency, its impact on agent performance in realistic scenarios remains unclear. In this work, we analyze quantization sensitivity across diverse complex workflows over OpenClaw, and show that precision requirements are highly task-dependent. Based on this observation, we propose QuantClaw, a plug-and-play precision routing plugin that dynamically assigns precision according to task characteristics. QuantClaw routes lightweight tasks to lower-cost configurations while preserving higher precision for demanding workloads, saving cost and accelerating inference without increasing user complexity. Experiments show that our QuantClaw maintains or improves task performance while reducing both latency and computational cost. Across a range of agent tasks, it achieves up to 21.4% cost savings and 15.7% latency reduction on GLM-5 (FP8 baseline). These results highlight the benefit of treating precision as a dynamic resource in agent systems.
- Abstract(参考訳): OpenClawのような自律エージェントシステムは、長いコンテキスト入力とマルチターン推論による大幅な効率の課題を導入している。
この結果、現実世界の開発において計算コストと金銭コストが著しく高くなる。
量子化はコストとレイテンシを低減するための標準的なアプローチだが、現実的なシナリオにおけるエージェントのパフォーマンスへの影響は、まだ不明である。
本研究では,OpenClaw上での多様な複雑なワークフロー間の量子化感度を分析し,精度要求がタスクに依存していることを示す。
そこで本研究では,タスク特性に応じて動的に精度を割り当てるプラグインQuantClawを提案する。
QuantClawは、軽量なタスクを低コストな構成にルーティングすると同時に、ワークロードの要求の正確さ、コストの削減、ユーザの複雑性を増大させることなく推論の高速化を実現している。
実験によると、QuantClawは、レイテンシと計算コストの両方を削減しつつ、タスクのパフォーマンスを維持または改善している。
エージェントタスクの範囲で、最大21.4%のコスト削減と、GLM-5(FP8ベースライン)の15.7%のレイテンシ削減を実現している。
これらの結果はエージェントシステムにおける動的リソースとして精度を扱う利点を浮き彫りにする。
関連論文リスト
- Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文 参考訳(メタデータ) (2025-09-02T03:34:36Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Q-MambaIR: Accurate Quantized Mamba for Efficient Image Restoration [34.43633070396096]
状態空間モデル(SSM)は、画像復元(IR)において大きな注目を集めている。
Q-MambaIRは、IRタスクのための正確で効率的で柔軟な量子マンバである。
論文 参考訳(メタデータ) (2025-03-27T20:34:11Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。