論文の概要: Revisiting Multi-Task Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2601.13886v1
- Date: Tue, 20 Jan 2026 11:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.297051
- Title: Revisiting Multi-Task Visual Representation Learning
- Title(参考訳): マルチタスク視覚表現学習の再考
- Authors: Shangzhe Di, Zhonghua Zhai, Weidi Xie,
- Abstract要約: 本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
- 参考スコア(独自算出の注目度): 52.93947931352643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current visual representation learning remains bifurcated: vision-language models (e.g., CLIP) excel at global semantic alignment but lack spatial precision, while self-supervised methods (e.g., MAE, DINO) capture intricate local structures yet struggle with high-level semantic context. We argue that these paradigms are fundamentally complementary and can be integrated into a principled multi-task framework, further enhanced by dense spatial supervision. We introduce MTV, a multi-task visual pretraining framework that jointly optimizes a shared backbone across vision-language contrastive, self-supervised, and dense spatial objectives. To mitigate the need for manual annotations, we leverage high-capacity "expert" models -- such as Depth Anything V2 and OWLv2 -- to synthesize dense, structured pseudo-labels at scale. Beyond the framework, we provide a systematic investigation into the mechanics of multi-task visual learning, analyzing: (i) the marginal gain of each objective, (ii) task synergies versus interference, and (iii) scaling behavior across varying data and model scales. Our results demonstrate that MTV achieves "best-of-both-worlds" performance, significantly enhancing fine-grained spatial reasoning without compromising global semantic understanding. Our findings suggest that multi-task learning, fueled by high-quality pseudo-supervision, is a scalable path toward more general visual encoders.
- Abstract(参考訳): 視覚言語モデル(例えば、CLIP)は、グローバルなセマンティックアライメントにおいて優れ、空間的精度は欠如しているが、自己教師付き手法(例えば、MAE、DINO)は、高レベルのセマンティックコンテキストに苦しむ複雑な局所構造をキャプチャする。
これらのパラダイムは基本的に相補的であり、より密集した空間監視によってさらに強化された、原則化されたマルチタスクフレームワークに統合できると論じる。
視覚的コントラスト、自己監督的、密集した空間的目的に対して共有バックボーンを共同で最適化するマルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
手動アノテーションの必要性を軽減するため、Depth Anything V2 や OWLv2 のような高容量の "Expert" モデルを活用して、高密度で構造化された擬似ラベルを大規模に合成する。
フレームワークを超えて、マルチタスク視覚学習のメカニズムを体系的に調査し、分析する。
一 各目的の限界利得
(二)タスクシナジー対干渉
3) さまざまなデータおよびモデルスケールにわたるスケーリングの振る舞い。
以上の結果から,MTVは,グローバルな意味理解を損なうことなく,空間的推論の微粒化を著しく促進し,"Best-of-both-worlds"のパフォーマンスを達成できることが示唆された。
この結果から,高品質な擬似スーパービジョンによるマルチタスク学習は,より汎用的なビジュアルエンコーダへのスケーラブルな経路であることが示唆された。
関連論文リスト
- CLIP-Guided Adaptable Self-Supervised Learning for Human-Centric Visual Tasks [76.00315860962885]
CLASP (CLIP-guided Adaptable Self-su Pervised Learning) は、人中心視覚タスクにおける教師なし事前学習のための新しいフレームワークである。
CLASPは強力な視覚言語モデルCLIPを利用して、低レベル(体の部分など)と高レベル(属性など)のセマンティックな擬似ラベルを生成する。
MoEはタスク固有のプロンプトに基づいて機能抽出を動的に適応し、潜在的な機能競合を緩和し、転送可能性を高める。
論文 参考訳(メタデータ) (2026-01-19T15:19:28Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Patch-Level Kernel Alignment for Dense Self-Supervised Learning [7.5866326278176075]
Patch-level Kernel Alignment (PaKA) は、非パラメトリックなカーネルベースのアプローチで、事前学習した視覚エンコーダの高密度表現をポスト(pre)トレーニングで改善する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加のトレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-09-06T05:42:32Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing [10.207026975603503]
MoSAiCは,モダリティ内およびモダリティ間コントラスト学習を多ラベル教師付きコントラスト学習と共同で最適化する統合フレームワークである。
MoSAiCは、精度、クラスタコヒーレンス、一般化の点で、完全に教師されたベースラインと自己監督されたベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-07-11T15:33:51Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
都市交通に不可欠な複数のコンピュータビジョンタスクを訓練した統一型エンコーダを提案する。
人間の知覚機構に類似した多様な視覚的手がかりを統合することで、エンコーダはナビゲーション関連の予測を強化する豊富な特徴をキャプチャする。
その結果,(1) 統合エンコーダは,すべての視覚的認識タスク間での競合性能を達成し,強力な一般化能力を示すこと,(2) ステアリング推定のために,凍結された統合エンコーダを平均化することにより,その微細な調整された表現と,ImageNetのような汎用データセットで事前訓練された同じ凍結モデルの両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:54:03Z) - Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations [6.990891188823598]
本稿では,視覚言語学習と差別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介する。
本フレームワークは,自己教師型学習パスにおけるネガティブな例に頼らず,Webスクラッドデータに特化して動作するように設計されている。
様々な視覚的下流タスクにおけるハーモニーの評価を行い、ベースラインCLIPを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-23T07:18:08Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。