論文の概要: Improved Masked Image Generation with Knowledge-Augmented Token Representations
- arxiv url: http://arxiv.org/abs/2511.12032v1
- Date: Sat, 15 Nov 2025 04:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.518282
- Title: Improved Masked Image Generation with Knowledge-Augmented Token Representations
- Title(参考訳): 知識付加型トークン表現によるマスケ画像生成の改良
- Authors: Guotao Liang, Baoquan Zhang, Zhiyuan Wen, Zihao Han, Yunming Ye,
- Abstract要約: マスク付き画像生成(MIG)は、並列トークン予測を可能にすることにより、顕著な効率と高忠実度画像を示す。
我々は,トークンレベルのセマンティック依存関係の明示的な知識を導入する,KA-MIGという新しい知識付加型マスケッド画像生成フレームワークを提案する。
提案手法は,セマンティック依存関係をキャプチャするモデルの能力を効果的に向上し,生成品質が向上することを示す。
- 参考スコア(独自算出の注目度): 25.53300917337226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image generation (MIG) has demonstrated remarkable efficiency and high-fidelity images by enabling parallel token prediction. Existing methods typically rely solely on the model itself to learn semantic dependencies among visual token sequences. However, directly learning such semantic dependencies from data is challenging because the individual tokens lack clear semantic meanings, and these sequences are usually long. To address this limitation, we propose a novel Knowledge-Augmented Masked Image Generation framework, named KA-MIG, which introduces explicit knowledge of token-level semantic dependencies (\emph{i.e.}, extracted from the training data) as priors to learn richer representations for improving performance. In particular, we explore and identify three types of advantageous token knowledge graphs, including two positive and one negative graphs (\emph{i.e.}, the co-occurrence graph, the semantic similarity graph, and the position-token incompatibility graph). Based on three prior knowledge graphs, we design a graph-aware encoder to learn token and position-aware representations. After that, a lightweight fusion mechanism is introduced to integrate these enriched representations into the existing MIG methods. Resorting to such prior knowledge, our method effectively enhances the model's ability to capture semantic dependencies, leading to improved generation quality. Experimental results demonstrate that our method improves upon existing MIG for class-conditional image generation on ImageNet.
- Abstract(参考訳): マスク付き画像生成(MIG)は、並列トークン予測を可能にすることにより、顕著な効率と高忠実度画像を示す。
既存のメソッドは通常、視覚トークンシーケンス間のセマンティック依存関係を学ぶためにモデル自体にのみ依存する。
しかし、個々のトークンには明確な意味が欠けているため、データからそのような意味的依存関係を直接学習することは難しい。
この制限に対処するため,KA-MIGという,トークンレベルのセマンティック依存関係(トレーニングデータから抽出した\emph{i.e.})の明示的な知識を事前として導入し,パフォーマンス向上のためのリッチな表現を学習する,新しい知識強化型マスケッド画像生成フレームワークを提案する。
特に、2つの正グラフと1つの負グラフ (\emph{i.e.})、共起グラフ、意味的類似性グラフ、位置整合性グラフ) を含む3種類の有利なトークン知識グラフを探索し、同定する。
従来の3つの知識グラフに基づいて,トークンと位置認識表現を学習するためのグラフ対応エンコーダを設計する。
その後、これらのリッチ表現を既存のMIG手法に統合するための軽量な融合機構が導入された。
このような事前知識に置き換えることで,モデルがセマンティック依存関係をキャプチャする能力を効果的に向上し,生成品質が向上する。
実験により,画像ネット上でのクラス条件画像生成のための既存のMIGの改善が示された。
関連論文リスト
- Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Importance-Based Token Merging for Efficient Image and Video Generation [41.94334394794811]
マージ時の高情報トークンの保存は,サンプルの品質を著しく向上させることを示す。
本稿では,計算資源割り当てにおいて最も重要なトークンを優先する重要度に基づくトークンマージ手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Adversarial Graph Contrastive Learning with Information Regularization [51.14695794459399]
コントラスト学習はグラフ表現学習において有効な方法である。
グラフ上のデータ拡張は、はるかに直感的ではなく、高品質のコントラスト的なサンプルを提供するのがずっと難しい。
逆グラフ比較学習(Adversarial Graph Contrastive Learning, ARIEL)を提案する。
さまざまな実世界のデータセット上でのノード分類タスクにおいて、現在のグラフのコントラスト学習方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-02-14T05:54:48Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Graph Contrastive Learning with Adaptive Augmentation [23.37786673825192]
本稿では,適応的拡張を用いた新しいグラフコントラスト表現学習法を提案する。
具体的には,ノードの集中度に基づく拡張スキームを設計し,重要な結合構造を明らかにする。
提案手法は,既存の最先端のベースラインを一貫して上回り,教師付きベースラインを超えている。
論文 参考訳(メタデータ) (2020-10-27T15:12:21Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。