論文の概要: Self-Supervised Learning with a Multi-Task Latent Space Objective
- arxiv url: http://arxiv.org/abs/2602.05845v1
- Date: Thu, 05 Feb 2026 16:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.039737
- Title: Self-Supervised Learning with a Multi-Task Latent Space Objective
- Title(参考訳): マルチタスク遅延空間オブジェクトによる自己教師付き学習
- Authors: Pierre-François De Plaen, Abhishek Jha, Luc Van Gool, Tinne Tuytelaars, Marc Proesmans,
- Abstract要約: 自己教師付き学習(SSL)メソッドは、同じイメージの異なるビューを整列することで視覚表現を学ぶ。
それぞれのビュータイプに個別の予測器を割り当てると、マルチクロップトレーニングが安定し、性能が大幅に向上することを示す。
これは、グローバル、ローカル、マスクされたビューを単一のフレームワークに組み合わせた、非対称なシームズSSLの単純なマルチタスクの定式化をもたらす。
- 参考スコア(独自算出の注目度): 71.49269645849675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) methods based on Siamese networks learn visual representations by aligning different views of the same image. The multi-crop strategy, which incorporates small local crops to global ones, enhances many SSL frameworks but causes instability in predictor-based architectures such as BYOL, SimSiam, and MoCo v3. We trace this failure to the shared predictor used across all views and demonstrate that assigning a separate predictor to each view type stabilizes multi-crop training, resulting in significant performance gains. Extending this idea, we treat each spatial transformation as a distinct alignment task and add cutout views, where part of the image is masked before encoding. This yields a simple multi-task formulation of asymmetric Siamese SSL that combines global, local, and masked views into a single framework. The approach is stable, generally applicable across backbones, and consistently improves the performance of ResNet and ViT models on ImageNet.
- Abstract(参考訳): シームズネットワークに基づく自己教師付き学習(SSL)手法は、同じ画像の異なるビューをアライメントすることで視覚表現を学習する。
ローカルの小さな作物をグローバルな作物に取り入れたマルチクロップ戦略は、SSLフレームワークを多く強化するが、BYOL、SimSiam、MoCo v3といった予測型アーキテクチャでは不安定である。
この失敗を、すべてのビューで使用される共有予測器にトレースし、各ビュータイプに個別の予測器を割り当てると、マルチクロップトレーニングが安定し、パフォーマンスが大幅に向上することを示した。
この考え方を拡張して、各空間変換を個別のアライメントタスクとして扱い、画像の一部が符号化前に隠蔽されるカットアウトビューを追加する。
これは、グローバル、ローカル、マスクされたビューを単一のフレームワークに組み合わせた、非対称なシームズSSLの単純なマルチタスクの定式化をもたらす。
このアプローチは安定しており、一般的にバックボーンに適用でき、ImageNet上でのResNetとViTモデルのパフォーマンスを一貫して改善する。
関連論文リスト
- Adaptive Weighted LSSVM for Multi-View Classification [0.5161531917413708]
AW-LSSVMは、反復的なグローバルカップリングによる補完的な学習を促進し、各ビューが以前のイテレーションからの他人のハードサンプルに集中できるようにします。
実験では、AW-LSSVMは既存のカーネルベースのマルチビューメソッドよりも多くのデータセットで優れています。
論文 参考訳(メタデータ) (2025-12-02T11:14:47Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。