論文の概要: VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.13808v1
- Date: Wed, 15 Oct 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.807651
- Title: VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models
- Title(参考訳): VisCoP:ビジョン言語モデルのビデオドメイン適応のためのビジュアルプロファイリング
- Authors: Dominick Reilly, Manish Kumar Govind, Le Xue, Srijan Das,
- Abstract要約: VLM(Large Vision-Language Models)は、一般的な視覚的推論タスクにおいて優れるが、新しいドメインに適用した場合に顕著な性能劣化を示す。
既存のドメイン適応は、異なるVLMコンポーネントを微調整するが、ドメイン固有の特徴学習や、それ以前の機能を破滅的に忘れてしまうことがしばしばある。
本研究では,VLMの視覚エンコーダを学習可能な視覚プローブのコンパクトなセットで拡張する視覚コンテキスト型探索(VisCoP)を提案する。
- 参考スコア(独自算出の注目度): 21.523533871608944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs) excel at general visual reasoning tasks but exhibit sharp performance degradation when applied to novel domains with substantial distribution shifts from pretraining data. Existing domain adaptation approaches finetune different VLM components, but this often results in limited domain-specific feature learning or catastrophic forgetting of prior capabilities. To address these issues, we introduce Vision Contextualized Probing (VisCoP), which augments the VLM's vision encoder with a compact set of learnable visual probes. These probes enable efficient domain-specific adaptation with minimal modification to pretrained parameters. We evaluate VisCoP across three challenging domain adaptation settings-cross-view (exocentric to egocentric), cross-modal (RGB to depth), and cross-task (human understanding to robot control). Experiments show that VisCoP consistently outperforms existing adaptation strategies, achieving superior performance on target domains while effectively retaining source-domain knowledge.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、一般的な視覚的推論タスクにおいて優れるが、事前学習データからかなりの分布シフトを持つ新しい領域に適用した場合、顕著な性能劣化を示す。
既存のドメイン適応は、異なるVLMコンポーネントを微調整するが、ドメイン固有の特徴学習や、それ以前の機能を破滅的に忘れてしまうことがしばしばある。
これらの問題に対処するために、VLMの視覚エンコーダを学習可能な視覚プローブのコンパクトなセットで拡張するVisCoP(Vis Contextualized Probing)を導入する。
これらのプローブは、事前訓練されたパラメータに最小限の変更を加えることで、効率的なドメイン固有適応を可能にする。
我々は、VisCoPを3つの挑戦的なドメイン適応設定(エゴセントリックな)、クロスモーダル(奥行きRGB)、クロスタスク(ロボット制御に対する人間の理解)で評価した。
実験によると、VisCoPは既存の適応戦略を一貫して上回り、ソースドメインの知識を効果的に保持しつつ、ターゲットドメイン上での優れたパフォーマンスを実現している。
関連論文リスト
- UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。
従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。
本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-01T13:00:41Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency [7.940705941237998]
自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。
私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2022-06-16T14:46:10Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。