論文の概要: VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.13808v1
- Date: Wed, 15 Oct 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.807651
- Title: VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models
- Title(参考訳): VisCoP:ビジョン言語モデルのビデオドメイン適応のためのビジュアルプロファイリング
- Authors: Dominick Reilly, Manish Kumar Govind, Le Xue, Srijan Das,
- Abstract要約: VLM(Large Vision-Language Models)は、一般的な視覚的推論タスクにおいて優れるが、新しいドメインに適用した場合に顕著な性能劣化を示す。
既存のドメイン適応は、異なるVLMコンポーネントを微調整するが、ドメイン固有の特徴学習や、それ以前の機能を破滅的に忘れてしまうことがしばしばある。
本研究では,VLMの視覚エンコーダを学習可能な視覚プローブのコンパクトなセットで拡張する視覚コンテキスト型探索(VisCoP)を提案する。
- 参考スコア(独自算出の注目度): 21.523533871608944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs) excel at general visual reasoning tasks but exhibit sharp performance degradation when applied to novel domains with substantial distribution shifts from pretraining data. Existing domain adaptation approaches finetune different VLM components, but this often results in limited domain-specific feature learning or catastrophic forgetting of prior capabilities. To address these issues, we introduce Vision Contextualized Probing (VisCoP), which augments the VLM's vision encoder with a compact set of learnable visual probes. These probes enable efficient domain-specific adaptation with minimal modification to pretrained parameters. We evaluate VisCoP across three challenging domain adaptation settings-cross-view (exocentric to egocentric), cross-modal (RGB to depth), and cross-task (human understanding to robot control). Experiments show that VisCoP consistently outperforms existing adaptation strategies, achieving superior performance on target domains while effectively retaining source-domain knowledge.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、一般的な視覚的推論タスクにおいて優れるが、事前学習データからかなりの分布シフトを持つ新しい領域に適用した場合、顕著な性能劣化を示す。
既存のドメイン適応は、異なるVLMコンポーネントを微調整するが、ドメイン固有の特徴学習や、それ以前の機能を破滅的に忘れてしまうことがしばしばある。
これらの問題に対処するために、VLMの視覚エンコーダを学習可能な視覚プローブのコンパクトなセットで拡張するVisCoP(Vis Contextualized Probing)を導入する。
これらのプローブは、事前訓練されたパラメータに最小限の変更を加えることで、効率的なドメイン固有適応を可能にする。
我々は、VisCoPを3つの挑戦的なドメイン適応設定(エゴセントリックな)、クロスモーダル(奥行きRGB)、クロスタスク(ロボット制御に対する人間の理解)で評価した。
実験によると、VisCoPは既存の適応戦略を一貫して上回り、ソースドメインの知識を効果的に保持しつつ、ターゲットドメイン上での優れたパフォーマンスを実現している。
関連論文リスト
- AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition [21.989922235835067]
AdaptVisionは、粗いアプローチによる適応的な視覚トークン取得を可能にする効率的なVLMパラダイムである。
本稿では,AdaptVisionが最先端のVLM手法よりもはるかに少ない視覚トークンを消費し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-03T13:43:30Z) - CropVLM: Learning to Zoom for Fine-Grained Vision-Language Perception [4.254546679250887]
VLM(Vision-Language Models)は、微細なイメージ理解を必要とするタスクに悩まされることが多い。
性能向上のための外部低コスト手法としてCropVLMを導入する。
CropVLMは強化学習を用いて訓練され、人間のラベル付きバウンディングボックスを監視信号として使用しない。
論文 参考訳(メタデータ) (2025-11-25T01:21:26Z) - Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。
従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。
本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-01T13:00:41Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency [7.940705941237998]
自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。
私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2022-06-16T14:46:10Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。