論文の概要: When W4A4 Breaks Camouflaged Object Detection: Token-Group Dual-Constraint Activation Quantization
- arxiv url: http://arxiv.org/abs/2604.16855v1
- Date: Sat, 18 Apr 2026 06:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.204213
- Title: When W4A4 Breaks Camouflaged Object Detection: Token-Group Dual-Constraint Activation Quantization
- Title(参考訳): W4A4がカモフラージュされた物体検出を破る:Token-Group Dual-Constraint Activation Quantization
- Authors: Tianqi Li, Wenyu Fang, Xin He, Xue Geng, Xu Cheng, Yun Liu,
- Abstract要約: 我々はCOD-TDQ(CODを意識したToken-group Dual-Constraint activation Quantization法)を紹介する。
COD-TDQは、再学習せずに、最先端の量子化法よりも0.12以上高いスコアを一貫して達成する。
- 参考スコア(独自算出の注目度): 18.93468282736773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camouflaged object detection (COD) segments objects that intentionally blend with the background, so predictions depend on subtle texture and boundary cues. COD is often needed under tight on-device memory and latency budgets, making low-bit inference highly desirable. However, COD is unusually hard to quantify aggressively. We study post-training W4A4 quantization of Transformer-based COD and find a task-specific cliff: heavy-tailed background tokens dominate a shared activation range, inflating the step size and pushing weak-but-structured boundary cues into the zero bin. This exposes a token-local bottleneck -- remove cross-token range domination and bound the zero-bin mass under 4-bit activations. To address this, we introduce COD-TDQ, a COD-aware Token-group Dual-constraint activation Quantization method. COD-TDQ addresses this token-local bottleneck with two coupled steps: Direct-Sum Token-Group (DSTG) assigns token-group scales to suppress cross-token range domination, and Dual-Constraint Range Projection (DCRP) projects each token-group clip range to keep the step-to-dispersion ratio and the zero-bin mass bounded. Across four COD benchmarks and two baseline models (CFRN and ESCNet), COD-TDQ consistently achieves an Sαscore more than 0.12 higher than that of the state-of-the-art quantization method without retraining. The code will be released.
- Abstract(参考訳): カモフラージュされたオブジェクト検出(COD)は、意図的に背景と混ざったオブジェクトをセグメント化するので、予測は微妙なテクスチャや境界の手がかりに依存する。
CODはデバイス上の厳格なメモリと遅延予算の下で必要となることが多く、低ビット推論を非常に望ましいものにしている。
しかし、CODは攻撃的な定量化が難しい。
重み付き背景トークンが共有活性化範囲を支配し、ステップサイズを膨らませ、弱いが構造的な境界キューをゼロビンに押し込む。
これはトークンローカルなボトルネックを露呈する -- クロストークン範囲の支配を排除し、4ビットのアクティベーションの下でゼロビン質量を束縛する。
そこで本研究では,COD-TDQ(Token-group Dual-Constraint activation Quantization法)を提案する。
Direct-Sum Token-Group (DSTG) はトークングループスケールを割り当て、クロストークン範囲の支配を抑え、Dual-Constraint Range Projection (DCRP) は各トークングループクリップ範囲をプロジェクションし、ステップ対分散比とゼロビン質量のバウンドを維持する。
4つのCODベンチマークと2つのベースラインモデル(CFRNとESCNet)の中で、COD-TDQは継続的にSαスコアを達成する。
コードはリリースされます。
関連論文リスト
- Towards Joint Quantization and Token Pruning of Vision-Language Models [53.978753457744055]
トークンプルーニングと低ビット量子化は、推論コストの削減を補完する。
我々は、低ビット推論と決定論的視覚トーケンプルーニングを統一する協調量子化&プルーニングフレームワークを提案する。
標準VLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が改善された。
論文 参考訳(メタデータ) (2026-04-19T08:18:29Z) - OSC: Hardware Efficient W4A4 Quantization via Outlier Separation in Channel Dimension [5.50723299083202]
我々は、外乱抑制のためのハードウェア効率の良いフレームワークOSCを提案する。
OSCは非常にハードウェアフレンドリーで、現代のAIアクセラレーターのW8A8 GEMMベースラインよりも1.78倍のピーク速度を達成した。
論文 参考訳(メタデータ) (2026-04-14T14:17:59Z) - Bottleneck Tokens for Unified Multimodal Retrieval [16.707536543758344]
マルチモーダル検索のためのデコーダのみのマルチモーダル大言語モデル(MLLM)の適用には、2つの構造的ギャップがある。
まず、既存のメソッドは暗黙のプーリングに依存しており、シーケンスレベルの表現として標準語彙トークンの隠れた状態をオーバーロードする。
第二に、コントラスト的な微調整は、埋め込みが一致すべきものを特定するが、どのように情報を圧縮すべきかについてのトークンレベルのガイダンスは提供しない。
本稿では,Bottleneck Tokens(BToks)を紹介した。これは,固定容量明示的なプール機構として機能する,学習可能なトークンの小さなセットである。
論文 参考訳(メタデータ) (2026-04-13T07:12:12Z) - Bit-by-Bit: Progressive QAT Strategy with Outlier Channel Splitting for Stable Low-Bit LLMs [34.72414661826396]
我々は、外部チャネル分割を備えたプログレッシブQATフレームワークBit-by-Bitを提案する。
提案手法は,(1)精度を段階的に低下させるブロックワイド・プログレッシブ・トレーニング,(2)整数量子化格子のネスト構造,(3)ラウンドリング・アウェア・アウトリー・チャネル分割の3つの重要な要素を統合する。
W2A2設定下では、Bit-by-BitはBitDistillerやEfficientQATといったベースラインをLlama2/3で大幅に上回り、2.25 WikiText2 PPLの損失しか得られない。
論文 参考訳(メタデータ) (2026-04-09T06:56:39Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。