論文の概要: CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2603.05964v2
- Date: Mon, 09 Mar 2026 07:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.504519
- Title: CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection
- Title(参考訳): CR-QAT:オープン語彙オブジェクト検出のためのカリキュラムリレーショナル量子化学習
- Authors: Jinyeong Park, Donghwa Kang, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim,
- Abstract要約: CR-QAT(Relational Quantization-Aware Training)を提案する。
CR-QATは、プログレッシブ量子化のためにモデルを分割することでエラーの蓄積を軽減し、エラー分離による安定した最適化を保証する。
LVISとゼロショットベンチマークの実験では、CR-QATは攻撃的な低ビット設定下で既存のQATベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 2.751147407342378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-vocabulary object detection (OVOD) enables novel category detection via vision-language alignment, but massive model sizes hinder deployment on resource-constrained devices. While quantization offers practical compression, we reveal that naive extreme low-bit (e.g., 4-bit) quantization severely degrades fine-grained vision-language alignment and distorts inter-region relational structures. To address this, we propose curriculum relational quantization-aware training (CR-QAT), an integrated framework combining stage-by-stage optimization with relational knowledge distillation. Within CR-QAT, curriculum QAT (CQAT) mitigates error accumulation by partitioning the model for progressive quantization, ensuring stable optimization via error isolation. Concurrently, text-centric relational KD (TRKD) is applied to task-relevant modules. By constructing text-anchored pairwise similarity matrices, TRKD comprehensively transfers the teacher's multi-dimensional relational knowledge. Experiments on LVIS and COCO zero-shot benchmarks demonstrate that CR-QAT consistently outperforms existing QAT baselines under aggressive low-bit settings, achieving relative AP improvements of up to 38.9% and 40.9%, respectively.
- Abstract(参考訳): Open-vocabulary Object Detection (OVOD)は、視覚言語アライメントによる新しいカテゴリ検出を可能にするが、膨大なモデルサイズがリソース制約されたデバイスへの展開を妨げる。
量子化は実用的な圧縮を提供するが、極端に低ビット(例えば4ビット)な量子化は微粒な視覚言語アライメントを著しく劣化させ、領域間関係構造を歪ませる。
そこで本研究では,段階ごとの最適化と関係知識の蒸留を組み合わせた統合フレームワークであるCR-QAT(Relational Quantization-Aware Training)を提案する。
CR-QAT 内では、カリキュラム QAT (CQAT) はプログレッシブ量子化のためのモデルを分割することでエラーの蓄積を軽減し、エラー分離による安定した最適化を保証する。
同時に、タスク関連モジュールにテキスト中心リレーショナルKD(TRKD)を適用する。
テキストアンコールされたペアワイズ類似度行列を構築することにより、TRKDは教師の多次元関係知識を包括的に伝達する。
LVISとCOCOゼロショットベンチマークの実験では、CR-QATは攻撃的な低ビット設定で既存のQATベースラインを一貫して上回り、それぞれ38.9%と40.9%のAP改善を達成している。
関連論文リスト
- Fair Context Learning for Evidence-Balanced Test-Time Adaptation in Vision-Language Models [10.45965859391796]
テスト時間適応(TTA)は、ラベルのないテストサンプルのみを使用して堅牢性を改善することを目的としている。
ほとんどのプロンプトベースのTTA法はエントロピーの最小化に依存している。
本研究では,共有エビデンスバイアスに明示的に対処することにより,エントロピーの最小化を回避するフェアコンテキスト学習(FCL)を提案する。
論文 参考訳(メタデータ) (2026-02-02T16:02:50Z) - What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Punching Above Precision: Small Quantized Model Distillation with Learnable Regularizer [9.85847764731154]
Game of Regularizer (GoR) は、タスク固有性(TS)と蒸留損失を適応的にバランスをとる学習可能な正規化手法である。
GoRは、最先端のQAT-KD法を低消費電力エッジデバイスで一貫して上回っている。
また,多種多様な教師モデルを用いたアンサンブル蒸留フレームワークQAT-EKD-GoRについても紹介する。
論文 参考訳(メタデータ) (2025-09-25T07:43:13Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Self-Supervised Quantization-Aware Knowledge Distillation [5.4714555711042]
本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation)フレームワークを提案する。
SQAKDは、様々な量子化関数の前方と後方のダイナミクスを統一し、様々なQAT処理を組み込むのに柔軟である。
包括的な評価では、SQAKDは最先端のQATやKDよりも大幅に優れており、様々なモデルアーキテクチャで機能している。
論文 参考訳(メタデータ) (2024-03-17T06:20:28Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Poster: Self-Supervised Quantization-Aware Knowledge Distillation [6.463799944811755]
量子化対応トレーニング(QAT)は、事前トレーニングされた完全精度モデルから始まり、再トレーニング中に量子化を実行する。
既存のQATの作業にはラベルの監督が必要であり、精度の低下による精度の低下に悩まされている。
本稿では,SQAKD(Self-Supervised Quantization-Aware Knowledge Distillation framework)を提案する。
論文 参考訳(メタデータ) (2023-09-22T23:52:58Z) - Quaternion-valued Correlation Learning for Few-Shot Semantic
Segmentation [33.88445464404075]
Few-shot segmentation (FSS)は、少数のサンプルしか与えられていないクラスをセグメントすることを目的としている。
相関学習に関する四元数視点を導入し、新しい四元数評価相関学習ネットワーク(QCLNet)を提案する。
我々のQCLNetは超複素値ネットワークとして定式化され、四元数値畳み込みを用いてクエリ部分空間の外部関係を探索する四元数領域の相関テンソルを表す。
論文 参考訳(メタデータ) (2023-05-12T06:56:22Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。