論文の概要: ORION: ORthonormal Text Encoding for Universal VLM AdaptatION
- arxiv url: http://arxiv.org/abs/2602.19530v1
- Date: Mon, 23 Feb 2026 05:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.690003
- Title: ORION: ORthonormal Text Encoding for Universal VLM AdaptatION
- Title(参考訳): ORION:Universal VLM適応のための正規テキストエンコーディング
- Authors: Omprakash Chakraborty, Jose Dolz, Ismail Ben Ayed,
- Abstract要約: ORIONは、クラス名のみを使用して事前訓練された視覚言語モデルを改善するテキストエンコーダフレームワークである。
ORIONがパフォーマンスを継続的に大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 35.77414986774235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) have demonstrated remarkable generalization across diverse tasks, yet their performance remains constrained by the quality and geometry of the textual prototypes used to represent classes. Standard zero shot classifiers, derived from frozen text encoders and handcrafted prompts, may yield correlated or weakly separated embeddings that limit task specific discriminability. We introduce ORION, a text encoder fine tuning framework that improves pretrained VLMs using only class names. Our method optimizes, via low rank adaptation, a novel loss integrating two terms, one promoting pairwise orthogonality between the textual representations of the classes of a given task and the other penalizing deviations from the initial class prototypes. Furthermore, we provide a probabilistic interpretation of our orthogonality penalty, connecting it to the general maximum likelihood estimation (MLE) principle via Huygens theorem. We report extensive experiments on 11 benchmarks and three large VLM backbones, showing that the refined textual embeddings yield powerful replacements for the standard CLIP prototypes. Added as plug and play module on top of various state of the art methods, and across different prediction settings (zero shot, few shot and test time adaptation), ORION improves the performance consistently and significantly.
- Abstract(参考訳): 視覚言語モデル(VLM)は、様々なタスクにまたがる顕著な一般化を実証しているが、それらの性能は、クラスを表現するために使われるテキストプロトタイプの品質と幾何学に制約されている。
フリーズテキストエンコーダと手作りプロンプトから派生した標準ゼロショット分類器は、タスク固有の識別性を制限する相関性または弱い分離された埋め込みをもたらす可能性がある。
ORIONはテキストエンコーダの微調整フレームワークで,クラス名のみを用いて事前学習したVLMを改善する。
提案手法は,低階適応により,与えられたタスクのクラスのテキスト表現と初期クラスプロトタイプからの逸脱を補足する対角直交の促進という,2つの項を統合した新規な損失を最適化する。
さらに、直交ペナルティの確率論的解釈を提供し、Huygens定理を通した一般最大推定(MLE)原理に接続する。
11のベンチマークと3つの大きなVLMバックボーンに関する広範な実験を報告し、改良されたテキスト埋め込みが標準のCLIPプロトタイプの強力な代替となることを示した。
様々な最先端のメソッドの上にプラグインとプレイモジュールとして追加され、さまざまな予測設定(ゼロショット、ショット、テストタイムの適応がほとんどない)で、ORIONはパフォーマンスを一貫して大幅に改善する。
関連論文リスト
- Class-Aware Prototype Learning with Negative Contrast for Test-Time Adaptation of Vision-Language Models [48.61795272482598]
VLM(Vision-Language Models)は、大規模な画像テキスト事前学習を通じて、印象的なゼロショットの一般化を実証する。
しかし、デプロイメントディストリビューションがトレーニングディストリビューションから分岐すると、パフォーマンスが低下する可能性がある。
テスト時間適応(TTA)メソッドは、ラベルのないターゲットデータを使用してモデルを更新する。
軽量TTAフレームワークである textbfNegative textbfContrast(textbfCPL-NC) を用いた textbfClass-Aware textbfPrototype textbfL を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:38:35Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination [14.50214193838818]
CLIPのようなビジョン言語(V-L)モデルのゼロショット一般化は、広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューで得られた平均クラス確率によって重み付けされたクラス認識型プロトタイプアライメントを採用する。
論文 参考訳(メタデータ) (2024-04-11T07:26:00Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。