論文の概要: GTMA: Dynamic Representation Optimization for OOD Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.18504v1
- Date: Sat, 20 Dec 2025 20:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.370359
- Title: GTMA: Dynamic Representation Optimization for OOD Vision-Language Models
- Title(参考訳): GTMA:OODビジョンランゲージモデルのための動的表現最適化
- Authors: Jensen Zhang, Ningyuan Liu, Keze Wang,
- Abstract要約: VLM(Vision-Matching Model)は、アウト・オブ・ディストリビューション(OOD)の概念がクロスモーダルアライメントの崩壊を引き起こすような、オープンワールドなアプリケーションに苦しむ。
本稿では,GTMA(Guid Target-Language Adaptation)フレームワークを通じて実現された動的表現最適化を提案する。
ImageNet-RとVISTA-Beyondベンチマークの実験では、GTMAはゼロショットと少数ショットのOOD精度を、ベースVLMよりも最大15~20%向上している。
- 参考スコア(独自算出の注目度): 10.940718051047023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) struggle in open-world applications, where out-of-distribution (OOD) concepts often trigger cross-modal alignment collapse and severely degrade zero-shot performance. We identify the root cause as modal asymmetry: while the visual encoder can extract discriminative features from unseen images, the text encoder is constrained by a fixed discrete vocabulary and cannot synthesize new semantic anchors. Existing approaches such as CoOp or LoRA provide only partial remedies, as they remain confined to the pre-trained semantic space. To overcome this bottleneck, we propose dynamic representation optimization, realized through the Guided Target-Matching Adaptation (GTMA) framework. At inference time, GTMA constructs a continuous pseudo-word embedding that best aligns with an OOD image's visual anchor, effectively bypassing vocabulary limitations. The optimization is driven by an adaptive gradient-based representation policy optimization algorithm, which incorporates semantic regularization to preserve plausibility and compatibility with the model's prior knowledge. Experiments on ImageNet-R and the VISTA-Beyond benchmark demonstrate that GTMA improves zero-shot and few-shot OOD accuracy by up to 15-20 percent over the base VLM while maintaining performance on in-distribution concepts. Ablation studies further confirm the necessity of pseudo-word optimization.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)はオープンワールドのアプリケーションでは苦戦し、アウト・オブ・ディストリビューション(OOD)の概念は多種多様のアライメントを崩壊させ、ゼロショット性能を著しく低下させる。
視覚エンコーダは未知の画像から識別的特徴を抽出できるが、テキストエンコーダは固定された離散語彙で制約され、新しいセマンティックアンカーを合成できない。
CoOpやLoRAのような既存のアプローチは、トレーニング済みの意味空間に限られているため、部分的な改善しか提供しない。
このボトルネックを克服するために,GTMA(Guid Target-Matching Adaptation)フレームワークを通じて実現された動的表現最適化を提案する。
推論時にGTMAは、OOD画像の視覚アンカーに最もよく適合する連続した擬似単語埋め込みを構築し、語彙制限を効果的に回避する。
この最適化は適応的勾配に基づく表現ポリシー最適化アルゴリズムによって駆動され、モデルの事前知識の妥当性と適合性を維持するために意味規則化が組み込まれている。
ImageNet-RとVISTA-Beyondベンチマークの実験では、GTMAはゼロショットと少数ショットのOOD精度をベースVLM上で最大15~20%向上し、分散概念の性能を維持している。
アブレーション研究は、疑似単語最適化の必要性をさらに裏付ける。
関連論文リスト
- End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [19.109259539368]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。