論文の概要: PiLaMIM: Toward Richer Visual Representations by Integrating Pixel and Latent Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2501.03005v1
- Date: Mon, 06 Jan 2025 13:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:57.579249
- Title: PiLaMIM: Toward Richer Visual Representations by Integrating Pixel and Latent Masked Image Modeling
- Title(参考訳): PiLaMIM:PixelとLatent Masked画像モデリングの統合によるよりリッチな視覚表現を目指して
- Authors: Junmyeong Lee, Eui Jun Hwang, Sukmin Cho, Jong C. Park,
- Abstract要約: 本稿では,Pixel MIMとLatent MIMを組み合わせた統合フレームワークPiLaMIMを提案する。
本手法では,1つのエンコーダと2つの異なるデコーダを用いる。1つは画素値の予測であり,もう1つは潜在表現であり,高レベルおよび低レベルの両方の視覚的特徴のキャプチャを保証する。
- 参考スコア(独自算出の注目度): 7.630967411418269
- License:
- Abstract: In Masked Image Modeling (MIM), two primary methods exist: Pixel MIM and Latent MIM, each utilizing different reconstruction targets, raw pixels and latent representations, respectively. Pixel MIM tends to capture low-level visual details such as color and texture, while Latent MIM focuses on high-level semantics of an object. However, these distinct strengths of each method can lead to suboptimal performance in tasks that rely on a particular level of visual features. To address this limitation, we propose PiLaMIM, a unified framework that combines Pixel MIM and Latent MIM to integrate their complementary strengths. Our method uses a single encoder along with two distinct decoders: one for predicting pixel values and another for latent representations, ensuring the capture of both high-level and low-level visual features. We further integrate the CLS token into the reconstruction process to aggregate global context, enabling the model to capture more semantic information. Extensive experiments demonstrate that PiLaMIM outperforms key baselines such as MAE, I-JEPA and BootMAE in most cases, proving its effectiveness in extracting richer visual representations.
- Abstract(参考訳): Masked Image Modeling (MIM)では、Pixel MIMとLatent MIMの2つの主要な手法が存在する。
Pixel MIMは、色やテクスチャなどの低レベルの視覚的詳細をキャプチャする傾向があり、Latent MIMは、オブジェクトの高レベルのセマンティクスに焦点を当てる。
しかし、これらの異なる手法の強みは、特定の視覚的特徴に依存するタスクにおいて、最適以下のパフォーマンスをもたらす可能性がある。
この制限に対処するため,Pixel MIMとLatent MIMを組み合わせた統合フレームワークPiLaMIMを提案する。
本手法では,1つのエンコーダと2つの異なるデコーダを用いる。1つは画素値の予測であり,もう1つは潜在表現であり,高レベルおよび低レベルの両方の視覚的特徴のキャプチャを保証する。
我々は、CLSトークンを再構築プロセスに統合し、グローバルコンテキストを集約し、モデルがより多くの意味情報をキャプチャできるようにする。
大規模な実験により、PiLaMIMはMAE、I-JEPA、BootMAEといったキーベースラインよりも優れており、よりリッチな視覚表現を抽出する効果が証明されている。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - PixelLM: Pixel Reasoning with Large Multimodal Model [110.500792765109]
PixelLMはピクセルレベルの推論と理解のための効率的かつ効率的なLMMである。
コードブックトークンの隠された埋め込みからマスクを生成し、詳細なターゲット関連情報をエンコードする。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、複数のベンチマークで確立されたメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-04T03:05:59Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Perceptual MAE for Image Manipulation Localization: A High-level Vision
Learner Focusing on Low-level Features [33.37376410890546]
本稿では,Masked Autoencoder (MAE) を高精細な入力と知覚的損失監視モジュールを組み込むことで拡張する手法を提案する。
このような解釈に基づいて,高精細な入力と知覚的損失監視モジュールを組み込むことで,Masked Autoencoder (MAE) を強化する手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T11:14:29Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。