Fugu-MT 論文翻訳(概要): Cluster and Predict Latent Patches for Improved Masked Image Modeling

論文の概要: Cluster and Predict Latent Patches for Improved Masked Image Modeling

arxiv url: http://arxiv.org/abs/2502.08769v2
Date: Mon, 17 Feb 2025 09:54:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 14:02:27.995241
Title: Cluster and Predict Latent Patches for Improved Masked Image Modeling
Title（参考訳）: マスク画像モデリングの改良のためのクラスタと予測潜在パッチ
Authors: Timothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski,
Abstract要約: 我々は,潜在クラスタリングの予測に依存する新しい純粋なMIMフレームワークであるCAPIを紹介する。このアプローチでは,トレーニングに安定なクラスタリングベースの損失を活用し,有望なスケーリング特性を示す。我々のVT-LバックボーンであるCAPIは、ImageNetで83.8%、ADE20Kで32.1%のmIoUを単純な線形プローブで達成している。
参考スコア（独自算出の注目度）: 25.616762947410045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Image Modeling (MIM) offers a promising approach to self-supervised representation learning, however existing MIM models still lag behind the state-of-the-art. In this paper, we systematically analyze target representations, loss functions, and architectures, to introduce CAPI - a novel pure-MIM framework that relies on the prediction of latent clusterings. Our approach leverages a clustering-based loss, which is stable to train, and exhibits promising scaling properties. Our ViT-L backbone, CAPI, achieves 83.8% accuracy on ImageNet and 32.1% mIoU on ADE20K with simple linear probes, substantially outperforming previous MIM methods and approaching the performance of the current state-of-the-art, DINOv2. We release all our code and models.
Abstract（参考訳）: Masked Image Modeling (MIM)は自己教師付き表現学習に有望なアプローチを提供するが、既存のMIMモデルは最先端技術に遅れを取っている。本稿では,対象表現,損失関数,アーキテクチャを体系的に解析し,潜在クラスタリングの予測に依存する新しい純粋MIMフレームワークであるCAPIを導入する。このアプローチでは,トレーニングに安定なクラスタリングベースの損失を活用し,有望なスケーリング特性を示す。我々のVT-LバックボーンであるCAPIは、イメージネット上の83.8%の精度、ADE20K上の32.1% mIoUを単純な線形プローブで達成し、従来のMIM法を大幅に上回り、現在最先端のDINOv2の性能に近づいている。すべてのコードとモデルをリリースします。

関連論文リスト

Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2025-04-05T16:25:34Z)
Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは改良された自己回帰型ビジュアルジェネレーション手法である。バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
論文参考訳（メタデータ） (2025-01-01T15:58:51Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文参考訳（メタデータ） (2024-02-15T16:46:16Z)
Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文参考訳（メタデータ） (2023-08-01T03:44:56Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。本稿では,画素再構成の観点からMIMの基本解析を行う。我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文参考訳（メタデータ） (2023-03-04T13:38:51Z)
CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。 CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文参考訳（メタデータ） (2022-11-17T18:58:33Z)
Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。 Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2022-07-04T16:35:58Z)
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation [42.37533586611174]
Masked Image Modeling (MIM)は、非常に優れた微調整性能を持つ表現を学習する。本稿では, 簡単な後処理により, 事前学習手法の微調整性能を著しく向上できることを示す。
論文参考訳（メタデータ） (2022-05-27T17:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。