論文の概要: RPIQ: Residual-Projected Multi-Collaboration Closed-Loop and Single Instance Quantization for Visually Impaired Assistance
- arxiv url: http://arxiv.org/abs/2601.02888v1
- Date: Tue, 06 Jan 2026 10:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.888853
- Title: RPIQ: Residual-Projected Multi-Collaboration Closed-Loop and Single Instance Quantization for Visually Impaired Assistance
- Title(参考訳): RPIQ:視覚障害者支援のための残留計画型マルチコラボレーション閉ループと単一インスタンス量子化
- Authors: Xuanyu Wang, Haisen Su, Jingtao Zhang, Xiangxiang Wang, Yongbin Yu, Manping Fan, Bo Gong, Siqi Chen, Mingsheng Cao, Liyong Ren,
- Abstract要約: 本研究では,Residual-Projected Multi-Collaboration and Single Instance Quantization(RPIQ)という新しい量子化フレームワークを提案する。
OPT、Qwen、LLaMAのような言語モデルや、CagVLM2のような視覚言語モデルなど、様々な種類の大規模モデルの実験。
RPIQはモデルを4ビット表現に圧縮でき、ピークメモリ消費を大幅に削減できる。
- 参考スコア(独自算出の注目度): 8.559058378749409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually impaired users face significant challenges in daily information access and real-time environmental perception, and there is an urgent need for intelligent assistive systems with accurate recognition capabilities. Although large-scale models provide effective solutions for perception and reasoning, their practical deployment on assistive devices is severely constrained by excessive memory consumption and high inference costs. Moreover, existing quantization strategies often ignore inter-block error accumulation, leading to degraded model stability. To address these challenges, this study proposes a novel quantization framework -- Residual-Projected Multi-Collaboration Closed-Loop and Single Instance Quantization(RPIQ), whose quantization process adopts a multi-collaborative closed-loop compensation scheme based on Single Instance Calibration and Gauss-Seidel Iterative Quantization. Experiments on various types of large-scale models, including language models such as OPT, Qwen, and LLaMA, as well as vision-language models such as CogVLM2, demonstrate that RPIQ can compress models to 4-bit representation while significantly reducing peak memory consumption (approximately 60%-75% reduction compared to original full-precision models). The method maintains performance highly close to full-precision models across multiple language and visual tasks, and exhibits excellent recognition and reasoning capabilities in key applications such as text understanding and visual question answering in complex scenarios. While verifying the effectiveness of RPIQ for deployment in real assistive systems, this study also advances the computational efficiency and reliability of large models, enabling them to provide visually impaired users with the required information accurately and rapidly.
- Abstract(参考訳): 視覚障害者は、日々の情報アクセスやリアルタイム環境認識において重大な課題に直面しており、正確な認識能力を持つインテリジェントな補助システムが必要である。
大規模モデルは知覚と推論に効果的なソリューションを提供するが、補助装置への実践的な展開は過剰なメモリ消費と高い推論コストによって厳しく制約されている。
さらに、既存の量子化戦略はブロック間エラーの蓄積を無視することが多く、モデルの安定性が低下する。
これらの課題に対処するため,本研究では,Residual-Projected Multi-Collaboration Closed-Loop and Single Instance Quantization (RPIQ) という新しい量子化フレームワークを提案する。
OPT、Qwen、LLaMAなどの言語モデルやCagVLM2のような視覚言語モデルを含む大規模モデルの実験では、RPIQはピークメモリの消費を著しく減少させながら4ビット表現にモデルを圧縮できることを示した。
本手法は,複数の言語および視覚タスクにわたる完全精度モデルに非常に近い性能を維持し,複雑なシナリオにおけるテキスト理解や視覚的質問応答といった重要なアプリケーションにおいて,優れた認識と推論能力を示す。
本研究は,実支援システムにおけるRPIQの有効性を検証しながら,大規模モデルの計算効率と信頼性を向上し,視覚障害者に必要な情報を正確かつ迅速に提供できるようにする。
関連論文リスト
- Explicit modelling of subject dependency in BCI decoding [12.17288254938554]
Brain-Computer Interfaces (BCI) は、高いオブジェクト間の変動とラベル付きデータに悩まされる。
被験者の身元を条件とした軽量畳み込みニューラルネットワーク(CNN)を用いて、対象の依存関係を明示的にモデル化するエンド・ツー・エンドのアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:51:42Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Modèles de Substitution pour les Modèles à base d'Agents : Enjeux, Méthodes et Applications [0.0]
エージェントベースモデル(ABM)は、局所的な相互作用から生じる創発的な現象を研究するために広く用いられている。
ABMの複雑さは、リアルタイム意思決定と大規模シナリオ分析の可能性を制限する。
これらの制限に対処するため、サロゲートモデルはスパースシミュレーションデータから近似を学習することで効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-17T08:55:33Z) - LFTR: Learning-Free Token Reduction for Multimodal Large Language Models [3.368594680297987]
MLLM(Multimodal Large Language Models)用に設計されたLFTR(Learning-free token reduction)手法を提案する。
視覚表現の冗長性に乗じて,MLLMの一般的な推論性能を維持しつつトークンを効果的に削減する。
その結果、LFTRは最大16倍の視覚トークンの削減を実現し、メインストリームの視覚質問応答ベンチマークの性能を維持したり、向上させることができた。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。