論文の概要: A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning
- arxiv url: http://arxiv.org/abs/2603.25758v1
- Date: Wed, 25 Mar 2026 19:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.186323
- Title: A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning
- Title(参考訳): A-SelecT:拡散変圧器表現学習のための時間自動選択
- Authors: Changyu Liu, James Chenhao Liang, Wenhao Yang, Yiming Cui, Jinghao Yang, Tianyang Wang, Qifan Wang, Dongfang Liu, Cheng Han,
- Abstract要約: Diffusion Transformer (DiT) は従来のU-Netベースの拡散モデルに代わる有望な代替手段として注目されている。
選択したトランス機能からDiTの最も情報に富んだタイムステップを動的にピンポイントするA-SelecTを単一実行で導入する。
分類とセグメンテーションのベンチマークの実験は、A-SelecTによって強化されたDiTが、全ての従来の拡散に基づく試みを効率的かつ効果的に上回っていることを示した。
- 参考スコア(独自算出の注目度): 61.53885568590115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly reshaped the field of generative artificial intelligence and are now increasingly explored for their capacity in discriminative representation learning. Diffusion Transformer (DiT) has recently gained attention as a promising alternative to conventional U-Net-based diffusion models, demonstrating a promising avenue for downstream discriminative tasks via generative pre-training. However, its current training efficiency and representational capacity remain largely constrained due to the inadequate timestep searching and insufficient exploitation of DiT-specific feature representations. In light of this view, we introduce Automatically Selected Timestep (A-SelecT) that dynamically pinpoints DiT's most information-rich timestep from the selected transformer feature in a single run, eliminating the need for both computationally intensive exhaustive timestep searching and suboptimal discriminative feature selection. Extensive experiments on classification and segmentation benchmarks demonstrate that DiT, empowered by A-SelecT, surpasses all prior diffusion-based attempts efficiently and effectively.
- Abstract(参考訳): 拡散モデルは、生成的人工知能の分野を大きく変え、差別的表現学習におけるその能力について研究が進んでいる。
Diffusion Transformer (DiT) は, 従来のU-Net拡散モデルに代わる有望な代替手段として注目され, 生成前訓練による下流の識別タスクへの有望な道を示す。
しかし、現在の訓練効率と表現能力は、不適切な時間ステップ探索とDiT固有の特徴表現の活用が不十分なため、ほとんど制約を受けていない。
この観点から、我々は、DiTが選択したトランスフォーマー特徴から最も情報に富んだタイムステップを動的にピンポイントする自動選択時間ステップ(A-SelecT)を導入する。
分類とセグメンテーションのベンチマークに関する大規模な実験は、A-SelecTによって強化されたDiTが、全ての従来の拡散に基づく試みを効率的かつ効果的に上回っていることを示した。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - DCAST: Diverse Class-Aware Self-Training Mitigates Selection Bias for Fairer Learning [0.0]
敏感な特徴に代表されないバイアスは 識別が困難で 診断されないのが普通です
未確認バイアスを緩和し、緩和方法を評価するための戦略は不可欠であるが、未調査のままである。
本稿では,クラス固有の偏見を意識したモデル非依存的緩和手法であるDiverse Class-Aware Self-Training (DCAST)を紹介した。
論文 参考訳(メタデータ) (2024-09-30T09:26:19Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Learning Causal Domain-Invariant Temporal Dynamics for Few-Shot Action Recognition [12.522600594024112]
少ないショットアクション認識は、トレーニング済みのモデルを新しいデータに迅速に適応することを目的としている。
主な課題は、事前訓練されたモデルから学んだ伝達可能な知識の特定と活用である。
知識伝達のためのCDTD(Causal Domain-Invariant Temporal Dynamics)を提案する。
論文 参考訳(メタデータ) (2024-02-20T04:09:58Z) - Fast Sampling via Discrete Non-Markov Diffusion Models with Predetermined Transition Time [49.598085130313514]
離散非マルコフ拡散モデル(DNDM)を提案する。
これにより、トレーニング不要なサンプリングアルゴリズムにより、関数評価の数を大幅に削減できる。
有限ステップサンプリングから無限ステップサンプリングへの移行について検討し、離散プロセスと連続プロセスのギャップを埋めるための新たな洞察を提供する。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。