論文の概要: SDiT: Semantic Region-Adaptive for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2601.12283v1
- Date: Sun, 18 Jan 2026 06:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.550066
- Title: SDiT: Semantic Region-Adaptive for Diffusion Transformers
- Title(参考訳): SDiT: 拡散変換器のセマンティック領域適応
- Authors: Bowen Lin, Fanjiang Ye, Yihua Liu, Zhenghui Guo, Boyuan Zhang, Weijian Zheng, Yufan Xu, Tiancheng Xing, Yuke Wang, Chengming Zhang,
- Abstract要約: 拡散変換器 (DiTs) はテキストと画像の合成において最先端の性能を達成するが、復調の反復性や世界的注目の二次的コストのため計算コストは高い。
本稿では,SDiTを提案する。SDiTは,領域の複雑さに応じて計算を割り当てるセマンティック領域適応拡散変換器である。
- 参考スコア(独自算出の注目度): 4.7254170106792035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) achieve state-of-the-art performance in text-to-image synthesis but remain computationally expensive due to the iterative nature of denoising and the quadratic cost of global attention. In this work, we observe that denoising dynamics are spatially non-uniform-background regions converge rapidly while edges and textured areas evolve much more actively. Building on this insight, we propose SDiT, a Semantic Region-Adaptive Diffusion Transformer that allocates computation according to regional complexity. SDiT introduces a training-free framework combining (1) semantic-aware clustering via fast Quickshift-based segmentation, (2) complexity-driven regional scheduling to selectively update informative areas, and (3) boundary-aware refinement to maintain spatial coherence. Without any model retraining or architectural modification, SDiT achieves up to 3.0x acceleration while preserving nearly identical perceptual and semantic quality to full-attention inference.
- Abstract(参考訳): 拡散変換器 (DiTs) はテキストと画像の合成において最先端の性能を達成するが、復調の反復性や世界的注目の二次的コストのため計算コストは高い。
本研究では,空間的に非一様背景領域が急速に収束するのに対して,エッジやテクスチャ領域はより活発に進化するのに対し,デノナイジングダイナミクスは空間的に非一様背景領域であることを示す。
そこで我々は,SDiTを提案する。SDiTはセマンティック領域適応拡散変換器で,領域の複雑さに応じて計算を割り当てる。
SDiTは,(1)高速なクイックシフトに基づくセグメンテーションによる意味認識クラスタリング,(2)情報領域を選択的に更新するための複雑性駆動型地域スケジューリング,(3)空間コヒーレンスを維持するための境界認識の改良を併用した,トレーニングフリーなフレームワークを導入している。
モデルの再トレーニングやアーキテクチャの変更がなければ、SDiTは最大3.0倍の加速を実現し、知覚的および意味的な品質を完全な意図的推論にほぼ同一に保ったままである。
関連論文リスト
- Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - Adaptive Mesh-Quantization for Neural PDE Solvers [51.26961483962011]
グラフニューラルネットワークは複雑なジオメトリや境界条件に必要な不規則なメッシュを処理できるが、それでもすべてのノードで一様計算処理を適用できる。
適応メッシュ量子化(Adaptive Mesh Quantization): メッシュノード,エッジ,クラスタ特徴間の空間適応量子化であり,量子化モデルで使用されるビット幅を動的に調整する。
我々は,MP-PDEとGraphViTという2つの最先端モデルと統合して,複数のタスクのパフォーマンスを評価することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-11-23T14:47:24Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step [37.449561703903505]
CoT-Diffは、ステップバイステップのCoTスタイルの推論をT2I世代にもたらすフレームワークである。
CoT-Diffは、MLLM(Multimodal Large Language Model)駆動の3Dレイアウト計画と拡散過程を密に統合する。
3次元Sceneベンチマーク実験により、CoT-Diffは空間アライメントと構成忠実度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-07-06T16:17:32Z) - TMT: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation [27.208145888390117]
本稿では、転送可能性誘導によるクロスドメイン表現学習を強化するために設計された領域適応型フレームワークを提案する。
まず、画像は構造的および意味的類似性によってグループ化され、動的にコヒーレントな領域に分割し、その領域の移動可能性を局所化レベルで推定する。
次に、領域レベルの転送可能性マップを直接ViTの自己保持機構に組み込んで、転送可能性の低い領域と意味の不確実性の高い領域に適応的に注目することを可能にする。
論文 参考訳(メタデータ) (2025-04-08T07:53:51Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis [73.50359502037232]
VoxNeRFは、ニューラル室内再構成と新しいビュー合成の質と効率を高めるための新しいアプローチである。
本稿では,最も関連性の高い領域に計算資源を割り当てる効率的なボクセル誘導サンプリング手法を提案する。
私たちのアプローチは、ScanNetとScanNet++に関する広範な実験で検証されています。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。