Fugu-MT 論文翻訳(概要): Morphing Tokens Draw Strong Masked Image Models

論文の概要: Morphing Tokens Draw Strong Masked Image Models

arxiv url: http://arxiv.org/abs/2401.00254v2
Date: Thu, 2 May 2024 07:50:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 21:50:58.799440
Title: Morphing Tokens Draw Strong Masked Image Models
Title（参考訳）: モーフィング・トークンは、強いマスク画像モデルを描く
Authors: Taekyung Kim, Byeongho Heo, Dongyoon Han,
Abstract要約: Masked Image Modeling (MIM)は、ビジョントランスフォーマーをトレーニングするための有望なオプションである。 DTM(Dynamic Token Morphing)と呼ばれる新しい自己超越信号を導入する。 DTMはコンテキスト関連トークンを動的に集約し、コンテキスト化ターゲットを生成する。
参考スコア（独自算出の注目度）: 28.356863521946607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked image modeling (MIM) is a promising option for training Vision Transformers among various self-supervised learning (SSL) methods. The essence of MIM lies in token-wise masked token predictions, with targets tokenized from images or generated by pre-trained models such as vision-language models. While tokenizers or pre-trained models are plausible MIM targets, they often offer spatially inconsistent targets even for neighboring tokens, complicating models to learn unified discriminative representations. Our pilot study confirms that addressing spatial inconsistencies has the potential to enhance representation quality. Motivated by the findings, we introduce a novel self-supervision signal called Dynamic Token Morphing (DTM), which dynamically aggregates contextually related tokens to yield contextualized targets. DTM is compatible with various SSL frameworks; we showcase an improved MIM by employing DTM, barely introducing extra training costs. Our experiments on ImageNet-1K and ADE20K demonstrate the superiority of our methods compared with state-of-the-art, complex MIM methods. Furthermore, the comparative evaluation of the iNaturalists and fine-grained visual classification datasets further validates the transferability of our method on various downstream tasks. Code is available at https://github.com/naver-ai/dtm
Abstract（参考訳）: Masked Image Modeling (MIM)は、様々な自己教師付き学習(SSL)メソッドの中でビジョントランスフォーマーをトレーニングするための有望な選択肢である。 MIMの本質はトークン単位のマスク付きトークン予測にあり、ターゲットは画像からトークン化されたり、視覚言語モデルのような事前訓練されたモデルによって生成される。トークン化器や事前訓練されたモデルがMIMターゲットであるのに対して、近隣のトークンに対しても空間的に一貫性のないターゲットを提供し、統一された識別表現を学習するためにモデルを複雑にすることが多い。実験により,空間的不整合に対処することで,表現の質が向上する可能性が確認された。本研究の目的は,動的トークンを動的に集約し,コンテキスト化されたターゲットを生成する,動的トーケンモーフィング (DTM) と呼ばれる新しい自己超越信号を導入することである。 DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIMを示します。 ImageNet-1K と ADE20K に関する実験は、最先端の複雑なMIM 手法と比較して、我々の手法の優位性を実証している。さらに,iNaturalistと細粒度視覚分類データセットの比較により,下流タスクにおける本手法の伝達性について検証した。コードはhttps://github.com/naver-ai/dtmで入手できる。

関連論文リスト

Vision Transformers Don't Need Trained Registers [17.412430704896455]
疎いニューロンの集合は、外れ値のトークンに高ノルムの活性化を集中させる役割を担っている。これらのアーティファクトを緩和するために、トレーニング不要のアプローチを作成します。その結果,テスト時のレジスタは,テスト時のレジスタトークンの役割を効果的に担っていることが示唆された。
論文参考訳（メタデータ） (2025-06-09T17:59:57Z)
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文参考訳（メタデータ） (2024-10-17T17:59:59Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文参考訳（メタデータ） (2024-07-22T17:54:41Z)
On the Role of Discrete Tokenization in Visual Representation Learning [35.10829554701771]
マスク付き画像モデリング (MIM) は, 対照的な学習手法とともに人気を博している。個別のトークンは再建の標的だがこの選択の理論的基盤は未解明のままだ離散トークン化がモデルの一般化能力にどのように影響するかを包括的に理論的に理解する。我々は,MIMフレームワーク内の離散トークンの有効性を評価するために,TCASという新しいメトリクスを提案する。
論文参考訳（メタデータ） (2024-07-12T08:25:31Z)
Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。 UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文参考訳（メタデータ） (2024-05-29T11:48:17Z)
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文参考訳（メタデータ） (2024-03-01T03:25:58Z)
MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文参考訳（メタデータ） (2024-01-14T10:30:32Z)
Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文参考訳（メタデータ） (2023-08-18T13:20:08Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense [52.66971714830943]
マスク付き画像モデリング(MIM)は、自己教師付き視覚表現学習のフレームワークとして普及している。本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に対して対角的ロバスト性を提供する方法について検討する。本稿では,デノナイジングのためのデコーダを用いて,デノナイジングのための対角防御手法を提案する。
論文参考訳（メタデータ） (2023-02-02T12:37:24Z)
Disjoint Masking with Joint Distillation for Efficient Masked Image Modeling [36.231030262831005]
Masked Image Modeling (MIM) は自己教師型学習 (SSL) に大きく貢献している。 DMJD(Disjoint Masking with Joint Distillation)と呼ばれる,概念的にシンプルだが学習効率のよいMIMトレーニングスキームを導入する。
論文参考訳（メタデータ） (2022-12-31T15:50:02Z)
Improve Transformer Pre-Training with Decoupled Directional Relative Position Encoding and Representation Differentiations [23.2969212998404]
トランスフォーマーに基づく事前学習言語モデルを再検討し、モデルの表現性を制限する可能性のある2つの問題を特定する。既存の相対位置符号化モデルは、相対距離と方向という2つの異種情報を混同する。事前学習型言語モデルを改善するための2つの新しい手法を提案する。
論文参考訳（メタデータ） (2022-10-09T12:35:04Z)
MimCo: Masked Image Modeling Pre-training with Contrastive Teacher [14.413674270588023]
Masked Image Modeling (MIM) は自己教師型学習 (SSL) において多くの注目を集めている。可視化は、学習された表現は、特に対照的な学習事前学習に基づく表現に比べて分離しにくいことを示している。そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しい,フレキシブルな事前学習フレームワークMimCoを提案する。
論文参考訳（メタデータ） (2022-09-07T10:59:05Z)
Masked Image Modeling with Denoising Contrast [30.31920660487222]
マスク付き画像モデリングは、視覚変換器の最先端性能でこの研究のラインを独占している。画像内画像間のコントラスト制約を生成するための,新しい事前学習手法であるConMIMを導入する。 ConMIM-pretrained vision Transformer with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation task。
論文参考訳（メタデータ） (2022-05-19T15:22:29Z)
Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-03-27T14:23:29Z)
Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得たほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文参考訳（メタデータ） (2021-06-10T10:18:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。