論文の概要: VESSA: Video-based objEct-centric Self-Supervised Adaptation for Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2510.20994v1
- Date: Thu, 23 Oct 2025 20:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.319237
- Title: VESSA: Video-based objEct-centric Self-Supervised Adaptation for Visual Foundation Models
- Title(参考訳): VESSA: Visual Foundation モデルのためのビデオベースの objEct 中心の自己監督型適応
- Authors: Jesimon Barreto, Carlos Caetano, André Araujo, William Robson Schwartz,
- Abstract要約: ファンデーションモデルは、大規模な事前訓練と教師付き微調整によって、多様なタスクにわたる強力なパフォーマンスを実現することにより、高度なコンピュータビジョンを持つ。
本稿では,視覚基盤モデルに対して,アノテーションを必要とせずに新たなドメインにモデルを適応させる,自己教師型微調整の新たな定式化を提案する。
VESSA(VojEct-centric Self-Supervised Adaptation for visual foundation model)と呼ぶ。
- 参考スコア(独自算出の注目度): 0.18665975431697424
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models have advanced computer vision by enabling strong performance across diverse tasks through large-scale pretraining and supervised fine-tuning. However, they may underperform in domains with distribution shifts and scarce labels, where supervised fine-tuning may be infeasible. While continued self-supervised learning for model adaptation is common for generative language models, this strategy has not proven effective for vision-centric encoder models. To address this challenge, we introduce a novel formulation of self-supervised fine-tuning for vision foundation models, where the model is adapted to a new domain without requiring annotations, leveraging only short multi-view object-centric videos. Our method is referred to as VESSA: Video-based objEct-centric Self-Supervised Adaptation for visual foundation models. VESSA's training technique is based on a self-distillation paradigm, where it is critical to carefully tune prediction heads and deploy parameter-efficient adaptation techniques - otherwise, the model may quickly forget its pretrained knowledge and reach a degraded state. VESSA benefits significantly from multi-view object observations sourced from different frames in an object-centric video, efficiently learning robustness to varied capture conditions, without the need of annotations. Through comprehensive experiments with 3 vision foundation models on 2 datasets, VESSA demonstrates consistent improvements in downstream classification tasks, compared to the base models and previous adaptation methods. Code is publicly available at https://github.com/jesimonbarreto/VESSA.
- Abstract(参考訳): ファンデーションモデルは、大規模な事前訓練と教師付き微調整によって、多様なタスクにわたる強力なパフォーマンスを実現することにより、高度なコンピュータビジョンを持つ。
しかし、分散シフトやラベルの少ないドメインでは、教師付き微調整が不可能である可能性がある。
モデル適応のための継続的自己教師型学習は、生成言語モデルでは一般的であるが、この戦略は視覚中心のエンコーダモデルでは有効ではない。
この課題に対処するために、我々は視覚基盤モデルのための自己教師型微調整の新たな形式を導入し、そのモデルがアノテーションを必要とせずに新しいドメインに適応し、短いマルチビューオブジェクト中心のビデオのみを活用する。
VESSA(VojEct-centric Self-Supervised Adaptation for visual foundation model)と呼ぶ。
VESSAのトレーニングテクニックは自己蒸留パラダイムに基づいており、予測ヘッドを慎重にチューニングし、パラメータ効率のよい適応テクニックをデプロイすることが重要である。
VESSAは、オブジェクト中心のビデオの異なるフレームから得られる多視点オブジェクトの観察から大きな恩恵を受け、アノテーションを必要とせずに、様々なキャプチャ条件に対するロバストネスを効率的に学習する。
2つのデータセット上での3つのビジョン基盤モデルによる包括的な実験を通じて、VESSAは、ベースモデルと以前の適応方法と比較して、下流分類タスクの一貫性のある改善を示す。
コードはhttps://github.com/jesimonbarreto/VESSA.comで公開されている。
関連論文リスト
- No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。
本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T12:54:52Z) - Simplifying Traffic Anomaly Detection with Video Foundation Models [12.999050785284725]
エゴ中心交通異常検出(TAD)の最近の手法は、複雑な多段階もしくは多表現融合アーキテクチャに依存していることが多い。
近年の視覚知覚の知見は、先進的な事前訓練によって実現された基礎モデルにより、単純で柔軟なアーキテクチャが特殊設計より優れていることを示唆している。
ビデオビジョン変換器(Video ViTs)を用いて,アーキテクチャ的にシンプルなエンコーダのみのアプローチについて検討し,事前学習が強力なTAD性能を実現する方法について検討する。
論文 参考訳(メタデータ) (2025-07-12T16:36:49Z) - Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.82630842681845]
特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文 参考訳(メタデータ) (2024-12-06T18:59:51Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。