論文の概要: LumiX: Structured and Coherent Text-to-Intrinsic Generation
- arxiv url: http://arxiv.org/abs/2512.02781v1
- Date: Tue, 02 Dec 2025 13:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.901904
- Title: LumiX: Structured and Coherent Text-to-Intrinsic Generation
- Title(参考訳): LumiX: 構造化された一貫性のあるテキストから本質的な生成
- Authors: Xu Han, Biao Zhang, Xiangjun Tang, Xianzhi Li, Peter Wonka,
- Abstract要約: 本稿では,コヒーレントテキスト-内在的生成のための構造化拡散フレームワークであるLumiXを紹介する。
LumiXはコヒーレントで物理的に有意義な結果をもたらし、23%のアライメントとより良い選好スコアを得る。
同じフレームワーク内でイメージ条件の分解を行うことも可能だ。
- 参考スコア(独自算出の注目度): 56.659456254026985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LumiX, a structured diffusion framework for coherent text-to-intrinsic generation. Conditioned on text prompts, LumiX jointly generates a comprehensive set of intrinsic maps (e.g., albedo, irradiance, normal, depth, and final color), providing a structured and physically consistent description of an underlying scene. This is enabled by two key contributions: 1) Query-Broadcast Attention, a mechanism that ensures structural consistency by sharing queries across all maps in each self-attention block. 2) Tensor LoRA, a tensor-based adaptation that parameter-efficiently models cross-map relations for efficient joint training. Together, these designs enable stable joint diffusion training and unified generation of multiple intrinsic properties. Experiments show that LumiX produces coherent and physically meaningful results, achieving 23% higher alignment and a better preference score (0.19 vs. -0.41) compared to the state of the art, and it can also perform image-conditioned intrinsic decomposition within the same framework.
- Abstract(参考訳): 本稿では,コヒーレントテキスト-内在的生成のための構造化拡散フレームワークであるLumiXを紹介する。
テキストプロンプトで条件付けされたLumiXは、統合された固有のマップ(例えば、アルベド、照度、正常、深さ、最終色)を共同で生成し、基盤となるシーンの構造的かつ物理的に一貫した記述を提供する。
これは2つの重要なコントリビューションによって実現されます。
1) Query-Broadcast Attentionは、各セルフアテンションブロック内のすべてのマップでクエリを共有することによって、構造的な一貫性を保証するメカニズムである。
2) テンソルロラ(Tensor LoRA)は, パラメータ効率のよいクロスマップ関係を, 効率的な関節訓練のためにモデル化したテンソル型適応法である。
これらの設計により、安定な関節拡散訓練と多重内在特性の統一生成が可能となる。
実験の結果、LumiXはコヒーレントで物理的に有意義な結果をもたらし、23%のアライメントを達成し、最先端技術と比較して良好な選好スコア(0.19対-0.41)を達成し、同じフレームワーク内で画像条件の内在的分解を行うことができた。
関連論文リスト
- Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Robust Image Stitching with Optimal Plane [39.80133570371559]
textitRopStitchは、堅牢性と自然性の両方を備えた教師なしの深層画像縫合フレームワークである。
textitRopStitchは、特にシーンの堅牢性とコンテンツ自然性において、既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-07T23:53:26Z) - CorrMoE: Mixture of Experts with De-stylization Learning for Cross-Scene and Cross-Domain Correspondence Pruning [30.111296778234124]
CorrMoEは、クロスドメインとクロスシーンのバリエーションの下で堅牢性を高める通信プルーニングフレームワークである。
シーンの多様性のために,多視点機能を適応的に統合するBi-Fusion Mixture of Expertsモジュールを設計する。
ベンチマークデータセットの実験では、CorrMoEは最先端の手法に比べて精度と一般化が優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-16T01:44:01Z) - When Kernels Multiply, Clusters Unify: Fusing Embeddings with the Kronecker Product [21.018675431494838]
最先端の埋め込みは、しばしば異なるが相補的な差別的特徴を捉えている。
本稿では,カーネル乗算による補完表現を融合する原理的手法を提案する。
我々は、ランダムなプロジェクションを利用して効率的な近似を行うスケーラブルなRP-KrossFuseを開発した。
論文 参考訳(メタデータ) (2025-06-10T09:57:58Z) - Unlocking Multi-Modal Potentials for Link Prediction on Dynamic Text-Attributed Graphs [28.533930417703715]
Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的イベント(エッジ)をキャプチャする新しいグラフパラダイムである。
MoMentは、リンク予測のためのノード表現を学習するために、各モードを明示的にモデル化し、統合し、調整するマルチモーダルモデルである。
実験の結果、MoMentは最大17.28%の精度向上を実現し、8つのベースラインに対して最大31倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-02-27T00:49:44Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - DiffCloth: Diffusion Based Garment Synthesis and Manipulation via
Structural Cross-modal Semantic Alignment [124.57488600605822]
クロスモーダルな衣料品の合成と操作は、ファッションデザイナーが衣料品を作る方法に大きな恩恵をもたらすだろう。
クロスモーダルな衣服合成と操作のための拡散型パイプラインDiffClothを紹介する。
CM-Fashionベンチマークの実験により、DiffClothはどちらも最先端の衣服合成結果を得ることが示された。
論文 参考訳(メタデータ) (2023-08-22T05:43:33Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Syntactically Robust Training on Partially-Observed Data for Open
Information Extraction [25.59133746149343]
オープン情報抽出モデルは十分な監督力を持った有望な結果を示している。
そこで本研究では,統語論的に頑健な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:39:13Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。