論文の概要: PERL: Parameter Efficient Reasoning in CLIP Latent Space
- arxiv url: http://arxiv.org/abs/2605.18464v2
- Date: Tue, 19 May 2026 09:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.578515
- Title: PERL: Parameter Efficient Reasoning in CLIP Latent Space
- Title(参考訳): PERL: CLIP潜在空間におけるパラメータ効率的な推論
- Authors: Simone Carnemolla, Salvatore Calcagno, Daniela Giordano, Concetto Spampinato, Matteo Pennisi,
- Abstract要約: PERLは、凍結したCLIPモデルを拡張し、コンパクトな共用推論モジュールを繰り返し適用する軽量適応フレームワークである。
PerLは、高速適応数ショット設定で比較した手法の中で最高のパラメータ性能トレードオフを達成する。
以上の結果から,反復潜在推論は,ディスクネイティブな視覚言語モデルにおけるパラメータスケーリングに相補的適応機構を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.607257085664727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastively trained vision-language models such as CLIP provide strong zero-shot transfer by aligning images and text in a shared embedding space. However, adapting these models to downstream tasks without degrading their open-vocabulary generalization remains challenging. Existing parameter-efficient adaptation methods typically improve task specialization through learned prompts, adapters, or multimodal transformations, where adaptation capacity is primarily expressed through additional trainable parameters. Inspired by recent latent reasoning methods in language models, we investigate a complementary perspective: can adaptation emerge from iterative reasoning on latent representations rather than from increasing parameter count alone? We introduce PERL (Parameter-Efficient Reasoning in CLIP Latent Space), a lightweight adaptation framework that augments a frozen CLIP model with a compact shared reasoning module applied recurrently across refinement steps. At each step, PERL generates a latent reasoning token conditioned on the current representation and injects it into an intermediate encoder layer, progressively refining higher-level semantic representations while preserving CLIP's pretrained multimodal structure. Across 15 benchmarks spanning base-to-novel generalization, cross-dataset transfer, and out-of-distribution ImageNet variants, PERL achieves the best parameter-performance trade-off among the compared methods under a fast-adaptation few-shot setting, combining strong novel-class accuracy and competitive transfer performance with only about 6K trainable parameters, up to 817x fewer than the largest compared approach. Overall, our results suggest that iterative latent reasoning provides a complementary adaptation mechanism to parameter scaling in discriminative vision-language models.
- Abstract(参考訳): CLIPのような対照的に訓練された視覚言語モデルは、画像とテキストを共有埋め込み空間で整列することで、強力なゼロショット転送を提供する。
しかし、これらのモデルをダウンストリームタスクに適応させることは、オープン語彙の一般化を低下させることなく、依然として困難である。
既存のパラメータ効率適応法は、学習プロンプト、アダプタ、マルチモーダル変換を通じてタスクの特殊化を改善するのが一般的である。
言語モデルにおける近年の潜時推論法に着想を得て、補的視点として、パラメータ数の増加からではなく、潜時表現への反復的推論から適応が生まれるかを検討する。
CLIP遅延空間におけるParameter-Efficient Reasoning(Parameter-Efficient Reasoning in CLIP Latent Space)を導入する。
各ステップでPERLは、現在の表現に条件付けられた潜在推論トークンを生成し、中間エンコーダ層に注入し、CLIPの事前訓練されたマルチモーダル構造を保持しながら、より高度なセマンティック表現を段階的に洗練する。
ベース・ツー・ノーベルの一般化、クロス・データセット・トランスファー、アウト・オブ・ディストリビューションのイメージネットの変種にまたがる15のベンチマークにおいて、PERLは、高速適応数ショット設定の下で比較した手法の中で、最高のパラメータ・パフォーマンスのトレードオフを達成し、強力な新規クラスの精度と競合転送性能を約6Kのトレーニング可能なパラメータと組み合わせ、最大817倍まで小さくする。
以上の結果から,反復潜在推論は識別的視覚言語モデルにおけるパラメータスケーリングに相補的な適応機構をもたらすことが示唆された。
関連論文リスト
- MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation [12.481603155570037]
textbfMMLoP (textbfMulti-textbfModal textbfLow-Rank textbfPrompting) を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:00:34Z) - Optimization-Inspired Few-Shot Adaptation for Large Language Models [25.439708260502556]
LLM(Large Language Models)は、現実世界のアプリケーションで顕著な性能を示している。
LLMを微調整によって新しいタスクに適応させるには、数ショットのシナリオでは実行不可能な、実質的なトレーニングデータと計算資源が必要となることが多い。
既存のアプローチ、例えば、コンテキスト内学習や。
PEFT(Efficient Fine-Tuning)は、重要な制限に直面している。
論文 参考訳(メタデータ) (2025-05-25T11:54:23Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。