論文の概要: Efficient Test-Time Scaling for Small Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.03574v1
- Date: Fri, 03 Oct 2025 23:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.124534
- Title: Efficient Test-Time Scaling for Small Vision-Language Models
- Title(参考訳): 小型ビジョンランゲージモデルのための効率的なテスト時間スケーリング
- Authors: Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos,
- Abstract要約: 小型ビジョンランゲージモデル (Small Vision-Language Models, VLM) は、より大きなモデルに対する計算的に効率的な代替手段を提供する。
既存の手法は典型的には計算的に要求され、小さなモデルの資源効率の高い設計目標と矛盾する。
外部監視よりもモデル内部の特徴を活用する新しい,効率的な2つのテストタイムスケーリング戦略を提案する。
- 参考スコア(独自算出の注目度): 14.654047034885288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small Vision-Language Models (VLMs) provide a computationally efficient alternative to larger models, at the cost of weaker generalization abilities and downstream task performance. These shortcomings could be addressed by test-time scaling techniques, but existing methods are typically computationally demanding, contradicting the resource-efficient design goals of small models. To address these limitations, we propose two novel and efficient test-time scaling strategies that leverage the model-internal features rather than external supervision: (i) Test-Time Augmentation (TTAug), which generates multiple augmented inputs and aggregates outputs at the token level without parameter updates, and (ii) Test-Time Adaptation (TTAdapt), which adapts model parameters during inference using consensus-based pseudolabels from TTAug. Through extensive experiments across nine benchmarks, we demonstrate consistent performance improvements while maintaining computational efficiency suitable for resource-constrained environments. The generality of our approach is demonstrated both within models at different scales and across different VLMs without additional tuning.
- Abstract(参考訳): 小型ビジョンランゲージモデル (Small Vision-Language Models, VLM) は、より強力な一般化能力と下流タスク性能を犠牲にして、より大きなモデルに対する計算的に効率的な代替手段を提供する。
これらの欠点はテスト時のスケーリング技術によって対処できるが、既存の手法は計算的に要求されることが多く、小型モデルのリソース効率の良い設計目標とは矛盾する。
これらの制約に対処するため、我々は、外部の監督ではなく、モデル内部の機能を活用する、新しい2つの効率的なテストタイムスケーリング戦略を提案する。
一 パラメータ更新なしで複数の追加入力を生成し、トークンレベルで出力を集約するテスト時間拡張(TTAug)
(ii)TTAugのコンセンサスベースの擬似ラベルを用いた推論中にモデルパラメータを適応させるTTAdapt(Test-Time Adaptation)。
9つのベンチマークの広範な実験を通じて,資源制約環境に適した計算効率を維持しつつ,一貫した性能向上を実証した。
我々のアプローチの一般性は、異なるスケールのモデル内と、追加のチューニングなしで異なるVLMにわたって示される。
関連論文リスト
- Test-Time Model Adaptation for Quantized Neural Networks [37.84294929199108]
量子化モデルは、潜在的なドメインシフトを伴う動的環境において、深刻なパフォーマンス劣化に悩まされることが多い。
テスト時間適応(TTA)は、モデルがテストデータから適応的に学習できるようにすることによって、効果的なソリューションとして登場した。
本稿では,2つのフォワードパスのみを用いた効率的なモデル適応を実現するための連続ゼロ階適応(ZOA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T08:24:19Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [39.57154199908565]
自己拡張テストタイムスケーリング(SETS)は、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する、シンプルで効果的なアプローチである。
SETSは、大規模言語モデルの固有の自己検証と自己計算機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統合する。
以上の結果から,SETSは代替品よりも優れた性能向上と,より有利なテスト時間スケーリング動作を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-31T17:03:16Z) - Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。