論文の概要: VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization
- arxiv url: http://arxiv.org/abs/2603.07222v1
- Date: Sat, 07 Mar 2026 14:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.098398
- Title: VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization
- Title(参考訳): VINO: 構造的事前案内による非コンテキストオブジェクトの動画駆動不変性
- Authors: Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim,
- Abstract要約: 自己教師付き学習(SSL)は急速に進歩しているが、文脈的ショートカットと背景テクスチャと共起統計に基づいて、しばしば過剰に学習される特徴がある。
本稿では,高密度映像からロバストな画像エンコーダを学習する教師支援フレームワークであるVINOを提案する。
VINOは34.8 CorLocを達成し、高度に焦点を絞った形状バイアスの表現が、以前の高密度ビデオやモーション誘導SSLベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 1.4518460893038065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has made rapid progress, yet learned features often over-rely on contextual shortcuts-background textures and co-occurrence statistics. While video provides rich temporal variation, dense in-the-wild streams with strong ego-motion create a co-occurrence trap: foreground objects and background context move coherently, encouraging representations to collapse into scene encoders. To address this, we propose VINO (Video-driven Invariance for Non-Contextual Objects), a teacher-student framework that learns robust image encoders from dense video by imposing a structural information bottleneck. Using a class-agnostic structural prior solely to generate views-not as semantic pseudo-labels-VINO forms an asymmetric distillation problem. The teacher predicts from a foreground-union view with the background suppressed, while the student observes object-conditioned scene views that retain surrounding context but remove competing instances. Matching these targets via masked distillation makes background cues unreliable, pushing the representation toward object-centric invariances. We further enforce temporal object permanence via teacher-anchored cross-time distillation over track-matched objects, and stabilize part-to-whole consistency with mask-guided local views. Through attention visualization and unsupervised object discovery on PASCAL VOC, we demonstrate that VINO effectively disentangles foreground from background. Pretrained on the dense Walking Tours Venice video, VINO achieves 34.8 CorLoc, yielding highly focused, shape-biased representations that substantially outperform prior dense-video and motion-guided SSL baselines.
- Abstract(参考訳): 自己教師付き学習(SSL)は急速に進歩しているが、文脈的ショートカットと背景テクスチャと共起統計に基づいて、しばしば過剰に学習される特徴がある。
ビデオは時間的変化が豊富にあるが、強いエゴモーションを持つ密集したインザワイルドストリームは、共起トラップを生成する: 前景オブジェクトと背景コンテキストは、一貫性を持って動き、表現をシーンエンコーダに分解させる。
そこで我々は,高密度映像から頑健な画像エンコーダを学習する教師学習フレームワークであるVINO(ビデオ駆動型非コンテキストオブジェクトの不変性)を提案する。
クラスに依存しない構造を用いることで、ビューを意味的な擬ラベルとして生成するのではなく、VINOは非対称蒸留問題を形成する。
教師は、背景が抑制された前景統一ビューから予測し、学生は周囲の状況を維持しながら競合するインスタンスを除去するオブジェクト条件のシーンビューを観察する。
これらのターゲットをマスクした蒸留でマッチングすることで、背景の手がかりを信頼できないものにし、対象中心の不変性への表現を推し進める。
さらに,トラックマッチングされた物体上での教師によるクロスタイム蒸留による時間的物体の永続性や,マスク誘導による局所的な視界との完全整合性の安定化を図った。
PASCAL VOC上での注目の可視化と非監視対象の発見により,VINOが背景から効果的に遠ざかることが実証された。
密集したウォーキングツアー・ヴェニスのビデオでプレトレーニングされたVINOは、34.8 CorLocを達成し、高度に焦点を絞った、形状に偏った表現を与え、それまでの密集したビデオやモーション誘導のSSLベースラインを大幅に上回っている。
関連論文リスト
- Towards Source-Aware Object Swapping with Initial Noise Perturbation [10.974803680416876]
SourceSwapは、オブジェクト間のアライメントを学習する、自己管理的でソース対応のフレームワークである。
我々は、フルソースコンディショニングとノイズフリー参照エンコーダを備えたデュアルU-Netを訓練し、直接オブジェクト間アライメントを可能にする。
実験により、SourceSwapは優れた忠実さ、より強いシーン保存、より自然な調和を実現していることが示された。
論文 参考訳(メタデータ) (2026-02-27T05:54:29Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。