論文の概要: Suppressing Non-Semantic Noise in Masked Image Modeling Representations
- arxiv url: http://arxiv.org/abs/2604.00172v1
- Date: Tue, 31 Mar 2026 19:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.691893
- Title: Suppressing Non-Semantic Noise in Masked Image Modeling Representations
- Title(参考訳): マスキング画像の表現における非意味ノイズの抑制
- Authors: Martine Hjelkrem-Tan, Marius Aasan, Rwiddhi Chakraborty, Gabriel Y. Arteaga, Changkyu Choi, Adín Ramírez Rivera,
- Abstract要約: Masked Image Modeling (MIM)は、ユビキタスな自己監督型ビジョンパラダイムとなっている。
我々はMIMの目的が学習した表現に非意味的な情報を保持することを示している。
本稿では,パッチ表現における非意味情報を直接抑制する簡易な方法であるSemantically Orthogonal Artifact Projection (SOAP)を提案する。
- 参考スコア(独自算出の注目度): 10.470642234528988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) has become a ubiquitous self-supervised vision paradigm. In this work, we show that MIM objectives cause the learned representations to retain non-semantic information, which ultimately hurts performance during inference. We introduce a model-agnostic score for semantic invariance using Principal Component Analysis (PCA) on real and synthetic non-semantic images. Based on this score, we propose a simple method, Semantically Orthogonal Artifact Projection (SOAP), to directly suppress non-semantic information in patch representations, leading to consistent improvements in zero-shot performance across various MIM-based models. SOAP is a post-hoc suppression method, requires zero training, and can be attached to any model as a single linear head.
- Abstract(参考訳): Masked Image Modeling (MIM)は、ユビキタスな自己監督型ビジョンパラダイムとなっている。
本研究では,MIMの目的が学習した表現に非意味的な情報を保持する原因となり,推論時の性能を損なうことを示す。
実画像と合成画像に主成分分析(PCA)を用いた意味的不変性に対するモデル非依存スコアを提案する。
このスコアに基づいて,パッチ表現における非意味的情報を直接抑制し,様々なMIMモデル間のゼロショット性能を一貫した改善を実現するための簡易な方法であるSemantically Orthogonal Artifact Projection (SOAP)を提案する。
SOAPはポストホックな抑制方法であり、トレーニングが不要で、任意のモデルに1つのリニアヘッドとしてアタッチできる。
関連論文リスト
- Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:57Z) - Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression [2.9998889086656586]
本稿では,トランスフォーマーベース分類(RvTC)が語彙制約型分類を柔軟なビンベースアプローチで置き換える方法を示す。
汎用的なタスク記述とは異なり、特定の画像に関する意味情報を含むプロンプトにより、MLLMはクロスモーダル理解を活用することができる。
論文 参考訳(メタデータ) (2025-07-20T15:05:24Z) - Diffuse and Disperse: Image Generation with Representation Regularization [23.413550999126173]
拡散に基づく生成モデルを効果的に改善するプラグイン・アンド・プレイ・レギュレータである textitDispersive Loss を提案する。
我々の損失関数は、内部表現が、対照的な自己教師付き学習に類似した隠れ空間に分散することを奨励する。
最近の表現アライメント法(REPA)と比較して、我々のアプローチは自己完結型で最小限であり、事前学習も追加パラメータも外部データも必要としない。
論文 参考訳(メタデータ) (2025-06-10T17:53:29Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) は、視覚変換器(ViT)の事前訓練のための有望なアプローチとして登場した。
動的トークンモルフィング(DTM)は,コンテキストを保存しながら動的にトークンを集約し,コンテキスト化されたターゲットを生成する手法である。
DTMはさまざまなSSLフレームワークと互換性があります。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - Semantic-Aware Autoregressive Image Modeling for Visual Representation
Learning [9.960835000101115]
本稿では,セマンティック・アウェア・オートレグレッシブ・イメージ・モデリング(SemAIM)手法を提案する。
SemAIMの主な洞察は、セマンティックパッチから、セマンティックパッチの少ないセマンティックパッチへの自動回帰モデルイメージである。
ViT-Bで、SemAIMはImageNet上での微調整で84.1%のトップ-1精度、オブジェクト検出とインスタンス/セマンティックセグメンテーションで51.3%AP、45.4%APを達成した。
論文 参考訳(メタデータ) (2023-12-16T14:03:10Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。