論文の概要: WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP
- arxiv url: http://arxiv.org/abs/2509.21153v1
- Date: Thu, 25 Sep 2025 13:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.942434
- Title: WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP
- Title(参考訳): WAVECLIP:Adaptive-Resolution CLIPのためのウェーブレットトークン化
- Authors: Moshe Kimhi, Erez Koifman, Ehud Rivlin, Eli Schwartz, Chaim Baskin,
- Abstract要約: WAVECLIPは、標準的なパッチ埋め込みをマルチレベルウェーブレット分解に置き換える。
我々は、WAVECLIPをゼロショット分類で評価し、シンプルな信頼に基づくゲーティング機構が適応的な早期退避を可能にすることを示した。
- 参考スコア(独自算出の注目度): 10.196848358842631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WAVECLIP, a single unified model for adaptive resolution inference in CLIP, enabled by wavelet-based tokenization. WAVECLIP replaces standard patch embeddings with a multi-level wavelet decomposition, enabling the model to process images coarse to fine while naturally supporting multiple resolutions within the same model. At inference time, the model begins with low resolution tokens and refines only when needed, using key-value caching and causal cross-level attention to reuse computation, effectively introducing to the model only new information when needed. We evaluate WAVECLIP in zero-shot classification, demonstrating that a simple confidence-based gating mechanism enables adaptive early exits. This allows users to dynamically choose a compute-accuracy trade-off using a single deployed model. Our approach requires only lightweight distillation from a frozen CLIP teacher and achieves competitive accuracy with significant computational savings.
- Abstract(参考訳): WAVECLIPは、ウェーブレットベースのトークン化によって実現された、CLIPの適応分解能推論のための単一の統一モデルである。
WAVECLIPは、標準的なパッチ埋め込みをマルチレベルウェーブレット分解に置き換え、同じモデル内で複数の解像度を自然にサポートしながら、画像を粗く処理できる。
推論時に、モデルは低解像度のトークンから始まり、必要に応じてのみ洗練され、キーバリューキャッシングと因果的なクロスレベルな注意を使って計算を再利用し、必要に応じて新しい情報のみをモデルに効果的に導入する。
我々は、WAVECLIPをゼロショット分類で評価し、シンプルな信頼に基づくゲーティング機構が適応的な早期退避を可能にすることを示した。
これにより、ユーザは単一のデプロイモデルを使用して、計算精度のトレードオフを動的に選択できる。
提案手法では, 凍結したCLIP教師からの軽度蒸留のみが必要であり, 計算コストの大幅な削減と競争精度の向上が期待できる。
関連論文リスト
- Singular Value Few-shot Adaptation of Vision-Language Models [9.71224567110431]
提案するCLIP-SVDは,新しいマルチモーダル・パラメータ効率適応手法である。
領域適応のための基底ベクトルを再スケールするために、CLIPパラメータ行列の特異値のみを微調整する。
CLIP-SVDは11の自然と10のバイオメディカルデータセットに対して最先端の分類結果を達成する。
論文 参考訳(メタデータ) (2025-09-03T22:00:23Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。
DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。
4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文 参考訳(メタデータ) (2025-04-28T15:06:28Z) - AdpQ: A Zero-shot Calibration Free Adaptive Post Training Quantization Method for LLMs [22.25748046511075]
AdpQは大規模言語モデル(LLM)のための新しいゼロショット適応型PTQ法である
キャリブレーションデータを必要としない低精度量子化における最先端の性能を実現する。
その結果,LLMベンチマークの既存手法と同様の精度が得られ,量子化時間は少なくとも10倍に短縮された。
論文 参考訳(メタデータ) (2024-05-22T05:32:11Z) - Bayesian Exploration of Pre-trained Models for Low-shot Image Classification [14.211305168954594]
本研究はガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。
平均関数をCLIPとカーネル関数で指定することで,事前知識の統合を実現する。
提案手法は,予測性能に関する競争アンサンブルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-03-30T10:25:28Z) - Enabling Calibration In The Zero-Shot Inference of Large Vision-Language
Models [58.720142291102135]
プロンプト、データセット、アーキテクチャといった関連する変数のキャリブレーションを測定し、CLIPによるゼロショット推論が誤校正されていることを見つけます。
学習した1つの温度は、推論データセットにまたがって特定のCLIPモデルごとに一般化され、選択が促される。
論文 参考訳(メタデータ) (2023-03-11T17:14:04Z) - Train Flat, Then Compress: Sharpness-Aware Minimization Learns More
Compressible Models [7.6356407698088]
不要なパラメータを抽出することは、大きなモデルを圧縮するための単純で効果的な方法として現れている。
平らな最小値の最適化は、標準Adamの最適化よりもパラメータの圧縮性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:54:37Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。