論文の概要: Show, Don't Tell: Morphing Latent Reasoning into Image Generation
- arxiv url: http://arxiv.org/abs/2602.02227v1
- Date: Mon, 02 Feb 2026 15:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.256803
- Title: Show, Don't Tell: Morphing Latent Reasoning into Image Generation
- Title(参考訳): 画像生成に潜入するラテントをモフティングする動画(動画あり)
- Authors: Harold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成は目覚ましい進歩を遂げているが、既存の手法では生成時に動的に推論や洗練を行う能力が欠如していることが多い。
T2I生成プロセスに暗黙の潜伏推論をシームレスに統合するフレームワークであるLatentMorphを導入する。
連続ラテント空間で完全に推論を行うことにより、ラテントマーフは明示的推論のボトルネックを避け、より適応的な自己精製を可能にする。
- 参考スコア(独自算出の注目度): 60.743575139661154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) generation has achieved remarkable progress, yet existing methods often lack the ability to dynamically reason and refine during generation--a hallmark of human creativity. Current reasoning-augmented paradigms most rely on explicit thought processes, where intermediate reasoning is decoded into discrete text at fixed steps with frequent image decoding and re-encoding, leading to inefficiencies, information loss, and cognitive mismatches. To bridge this gap, we introduce LatentMorph, a novel framework that seamlessly integrates implicit latent reasoning into the T2I generation process. At its core, LatentMorph introduces four lightweight components: (i) a condenser for summarizing intermediate generation states into compact visual memory, (ii) a translator for converting latent thoughts into actionable guidance, (iii) a shaper for dynamically steering next image token predictions, and (iv) an RL-trained invoker for adaptively determining when to invoke reasoning. By performing reasoning entirely in continuous latent spaces, LatentMorph avoids the bottlenecks of explicit reasoning and enables more adaptive self-refinement. Extensive experiments demonstrate that LatentMorph (I) enhances the base model Janus-Pro by $16\%$ on GenEval and $25\%$ on T2I-CompBench; (II) outperforms explicit paradigms (e.g., TwiG) by $15\%$ and $11\%$ on abstract reasoning tasks like WISE and IPV-Txt, (III) while reducing inference time by $44\%$ and token consumption by $51\%$; and (IV) exhibits $71\%$ cognitive alignment with human intuition on reasoning invocation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は目覚ましい進歩を遂げているが、既存の手法では、人間の創造性を目立たせるように、生成中に動的に推論・洗練する能力が欠如していることが多い。
現在の推論拡張パラダイムは明示的な思考プロセスに依存しており、中間的推論は画像復号と再符号化を頻繁に行う固定ステップで離散テキストに復号化され、非効率性、情報損失、認知ミスマッチにつながる。
このギャップを埋めるために、暗黙の潜伏推論をT2I生成プロセスにシームレスに統合する新しいフレームワークであるLatentMorphを紹介します。
中心となるのは、LatentMorph氏が4つの軽量コンポーネントを紹介したことである。
一 中間生成状態をコンパクトな視覚記憶に要約するための凝縮器
(二)潜伏思想を行動指導に転換する翻訳者
三 次の画像トークンの予測を動的に操る整形器及び
(iv) 推論をいつ実行すべきかを適応的に決定するRL訓練された呼び出し子。
連続ラテント空間で完全に推論を行うことにより、ラテントマーフは明示的推論のボトルネックを避け、より適応的な自己精製を可能にする。
大規模な実験では、RatntMorph(I)がベースモデルであるJanus-ProをGenEvalで16.%、T2I-CompBenchで25.%、(II)明示的パラダイム(例えば、TwiG)で15.%、WISEやIPV-Txt(III)のような抽象的推論タスクで1.11.%、推論時間を4.4.%、トークン消費を5.11.%、そして(IV)は推論の推論に関する人間の直感と認知的アライメントを7.11.%で上回っている。
関連論文リスト
- ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space [66.76138204796497]
マルチモーダル推論は、最終回答に到達する前に中間推論ステップを組み込むことでMLLMの能力を高めることを目的としている。
本稿では,視覚情報とテキスト情報の両方を潜在空間内の推論プロセスに注入するInterleaved Vision-Text Latent Reasoning (IVT-LR)を提案する。
M3CoTとScienceQAの実験により、我々のIVT-LR法は5.45%の精度で平均的な性能向上を実現し、同時に既存の手法に比べて5倍以上の速度向上を実現した。
論文 参考訳(メタデータ) (2025-10-14T14:58:25Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。