論文の概要: Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.03510v1
- Date: Tue, 03 Feb 2026 13:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.466746
- Title: Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
- Title(参考訳): セマンティックルーティング:拡散変圧器用多層LLM特徴量探索
- Authors: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang,
- Abstract要約: 我々は,多層LLM隠蔽状態を体系的に整理する軽量ゲートを備えた統一正規化凸核融合フレームワークを提案する。
実験は、より優れた条件付け戦略としてDepth-wise Semantic Routingを確立する。
純粋に時間的な融合は、視覚発生の忠実度をパラドックス的に低下させる可能性がある。
- 参考スコア(独自算出の注目度): 31.67315012315044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.
- Abstract(参考訳): 最近のDiTベースのテキスト・ツー・イメージモデルは、テキストエンコーダとしてLLMを採用する傾向にあるが、テキストコンディショニングは主に静的であり、LLM層を横断するセマンティック階層と、拡散時間とネットワーク深度の両方に非定常デノゲーションダイナミクスがあるにもかかわらず、単一のLLM層しか利用していない。
そこで我々は,DiT生成の動的過程をよりよく一致させ,拡散モデルの生成能力を高めるために,多層LLM隠蔽状態を時間的,深さ的に,関節融合により体系的に整理する,軽量ゲートを備えた統一正規化凸核融合フレームワークを導入する。
実験は、Depth-wise Semantic Routingを優れた条件付け戦略として確立し、テキスト画像のアライメントとコンポジション生成を一貫して改善した(GenAI-Bench Countingタスクでは、+9.97)。
逆に、純粋な時間的融合は、視覚発生の忠実度をパラドックス的に低下させる可能性がある。
分類器のない指示の下では、名目上のタイムステップは有効なSNRを追跡することができず、推論中に意味的に不適切な特徴注入を引き起こします。
本研究の結果は, トラジェクトリ・アウェア・シグナルの強い時間依存的条件付けを実現するための重要な必要性を浮き彫りにして, 深度方向のルーティングを強靭かつ効果的なベースラインとして位置づけた。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Integrating Time Series into LLMs via Multi-layer Steerable Embedding Fusion for Enhanced Forecasting [44.91360223102709]
時系列データ(TS)は様々なアプリケーション領域に分散しており、時系列予測(TSF)は基本的なタスクである。
既存の手法は、TS情報の浅い統合によって本質的に制約される。
我々は,より深い層におけるTS情報の進行的損失を軽減するために,多層ステアブル・エンベディング・フュージョン(MSEF)を提案する。
論文 参考訳(メタデータ) (2025-08-22T03:22:10Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [41.909091496502704]
拡散トランスフォーマー(Diffusion Transformers, DiTs)は、強力なが未探索な生成モデルのクラスである。
解釈可能な拡散変換を行うためのTIDE-Temporal-aware sparse Autoencodersを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:35:51Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。