論文の概要: The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents
- arxiv url: http://arxiv.org/abs/2604.25299v1
- Date: Tue, 28 Apr 2026 07:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.74869
- Title: The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents
- Title(参考訳): マルチモーダル拡散潜水器における再帰スパース推論
- Authors: Yuwei Sun, Yuxuan Yao, Hui Li, Siyu Zhu,
- Abstract要約: 本稿では,テキスト・画像生成タスクを解決するために,従来の拡散モデルに統合されたスパース・ミックス・オブ・エキスパート・フレームワークを提案する。
我々のアプローチは、複数の潜伏ステップで視覚トークンを反復的に洗練し、神経モジュールのスパース選択によってパラメータを効率的に共有する。
クラス条件の画像ネット画像生成タスクの総合評価とGenEvalおよびDPGベンチマークのさらなる研究により、モデル画像生成性能を向上させる上で提案手法が優れていることを示す。
- 参考スコア(独自算出の注目度): 13.516336193977144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved success in high-fidelity data synthesis, yet their capacity for more complex, structured reasoning like text following tasks remains constrained. While advances in language models have leveraged strategies such as latent reasoning and recursion to enhance text understanding capabilities, extending these to multimodal text-to-image generation tasks is challenging due to the continuous and non-discrete nature of visual tokens. To tackle this problem, we draw inspiration from modular human cognition and propose a recursive, sparse mixture-of-experts framework integrated into conventional diffusion models. Our approach introduces a recursive component within joint attention layers that iteratively refines visual tokens over multiple latent steps while efficiently sharing parameters via sparse selection of neural modules. At each step, a gating network is devised to dynamically select specialized neural modules, conditioned on the current visual tokens, the diffusion timestep, and the conditioning information. Comprehensive evaluation on class-conditioned ImageNet image generation tasks and additional studies on the GenEval and DPG benchmark demonstrate the superiority of the proposed method in enhancing model image generation performance.
- Abstract(参考訳): 拡散モデルは高忠実なデータ合成に成功しているが、テキスト従うタスクのようなより複雑で構造化された推論の能力は依然として制限されている。
言語モデルの進歩は、潜在推論や再帰といった戦略を活用してテキスト理解能力を向上させる一方で、視覚トークンの連続的かつ非離散的性質のため、これらをマルチモーダルテキスト・画像生成タスクに拡張することは困難である。
この問題に対処するため、モジュール型人間の認識からインスピレーションを得て、従来の拡散モデルに統合された再帰的でスパースなミックス・オブ・エキスパート・フレームワークを提案する。
提案手法では,複数ステップの視覚トークンを反復的に洗練し,神経モジュールのスパース選択によってパラメータを効率的に共有する。
各ステップにおいて、ゲーティングネットワークは、現在の視覚トークン、拡散時間ステップ、および条件情報に基づいて、動的に特殊なニューラルモジュールを選択するように設計されている。
クラス条件の画像ネット画像生成タスクの総合評価とGenEvalおよびDPGベンチマークのさらなる研究により、モデル画像生成性能を向上させる上で提案手法が優れていることを示す。
関連論文リスト
- Multimodal Large Language Models for Multi-Subject In-Context Image Generation [56.20395856287325]
音楽は、textbfMUlti-textbfSubject textbfIn-textbfContextイメージ生成用に特別に設計された最初のMLLMである。
我々は,視覚連鎖機構による多目的意味関係の理解を深める。
訓練中に複雑な被写体画像を取り込むことで,連鎖推論におけるモデルの能力を向上させる。
論文 参考訳(メタデータ) (2026-04-08T15:37:42Z) - DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - Hierarchical Concept-to-Appearance Guidance for Multi-Subject Image Generation [22.845591588026366]
本稿では,高レベルの概念からきめ細かい外観まで,明示的で構造化された監視を提供するフレームワークを提案する。
概念レベルでは、VAEの参照機能をランダムに省略するVAEドロップアウトトレーニング戦略を導入する。
外観レベルでは、VLM由来の対応文を対応認識型マスキングアテンションモジュールに統合する。
論文 参考訳(メタデータ) (2026-02-03T12:13:29Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Nested Diffusion Models Using Hierarchical Latent Priors [23.605302440082994]
ネスト拡散モデル(ネスト拡散モデル)は、効率的で強力な階層的生成フレームワークである。
提案手法では,様々な意味レベルで潜伏変数を段階的に生成するために,一連の拡散モデルを用いる。
これらの潜伏変数を構築するために,事前学習した視覚エンコーダを用いて,強い意味的視覚表現を学習する。
論文 参考訳(メタデータ) (2024-12-08T16:13:39Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。