論文の概要: MCM: Multi-layer Concept Map for Efficient Concept Learning from Masked Images
- arxiv url: http://arxiv.org/abs/2502.00266v1
- Date: Sat, 01 Feb 2025 01:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:27.630203
- Title: MCM: Multi-layer Concept Map for Efficient Concept Learning from Masked Images
- Title(参考訳): MCM:マルチレイヤの概念マップによるマスキング画像からの効率的な概念学習
- Authors: Yuwei Sun, Lu Mi, Ippei Fujisawa, Ryota Kanai,
- Abstract要約: マスク画像に基づく効率的な概念学習法を考案する最初の試みであるMCM(Multi-layer Concept Map)を提案する。
特に,異なるエンコーダ層とデコーダ層との相関関係を確立することで,非対称な概念学習アーキテクチャを導入する。
MCMは、全画像パッチの75%未満をトレーニングすることで、計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 5.09981114473162
- License:
- Abstract: Masking strategies commonly employed in natural language processing are still underexplored in vision tasks such as concept learning, where conventional methods typically rely on full images. However, using masked images diversifies perceptual inputs, potentially offering significant advantages in concept learning with large-scale Transformer models. To this end, we propose Multi-layer Concept Map (MCM), the first work to devise an efficient concept learning method based on masked images. In particular, we introduce an asymmetric concept learning architecture by establishing correlations between different encoder and decoder layers, updating concept tokens using backward gradients from reconstruction tasks. The learned concept tokens at various levels of granularity help either reconstruct the masked image patches by filling in gaps or guide the reconstruction results in a direction that reflects specific concepts. Moreover, we present both quantitative and qualitative results across a wide range of metrics, demonstrating that MCM significantly reduces computational costs by training on fewer than 75% of the total image patches while enhancing concept prediction performance. Additionally, editing specific concept tokens in the latent space enables targeted image generation from masked images, aligning both the visible contextual patches and the provided concepts. By further adjusting the testing time mask ratio, we could produce a range of reconstructions that blend the visible patches with the provided concepts, proportional to the chosen ratios.
- Abstract(参考訳): 自然言語処理で一般的に使用されるマスキング戦略は、概念学習のような視覚的タスクではいまだに過小評価されている。
しかし、マスク付き画像を使用することで知覚入力が多様化し、大規模トランスフォーマーモデルによる概念学習において大きな利点をもたらす可能性がある。
この目的のために,マスク画像に基づく効率的な概念学習手法を考案したMCM(Multi-layer Concept Map)を提案する。
特に、異なるエンコーダ層とデコーダ層との相関関係を確立し、再構成タスクから後方勾配を用いて概念トークンを更新することにより、非対称な概念学習アーキテクチャを導入する。
さまざまなレベルで学習された概念トークンは、ギャップを埋めることでマスクされたイメージパッチを再構築するか、特定の概念を反映した方向に再構成結果を導くのに役立つ。
さらに,MCMは画像パッチ全体の75%未満のトレーニングで計算コストを大幅に削減し,概念予測性能を向上させた。
さらに、潜在空間で特定の概念トークンを編集することで、マスクされた画像からターゲット画像を生成し、視覚的なコンテキストパッチと提供された概念の両方を整列させることができる。
テスト時間マスク比を更に調整することにより、選択された比率に比例して、可視パッチと提供された概念をブレンドする、さまざまな再構成を作成できる。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base [61.53959791360333]
最初の概念中心型マルチモーダル知識ベース(MMKB)であるM2ConceptBaseを紹介する。
画像テキストデータセットのコンテキスト情報を用いて,概念イメージと概念記述ペアを協調するコンテキスト認識手法を提案する。
人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。
論文 参考訳(メタデータ) (2023-12-16T11:06:11Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Unsupervised Hashing with Semantic Concept Mining [37.215530006668935]
本稿では,A を利用したセマンティック・マイニング・コンセプト "Un Hashing with Semantic Mining Concept" を提案する。
高品質な類似性マトリックス。
意味的類似度行列を案内情報として、修正された対照的な損失に基づく正規化項目による新規ハッシュ損失を提案し、ハッシュネットワークを最適化する。
論文 参考訳(メタデータ) (2022-09-23T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。