論文の概要: Not all tokens contribute equally to diffusion learning
- arxiv url: http://arxiv.org/abs/2604.07026v1
- Date: Wed, 08 Apr 2026 12:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.528465
- Title: Not all tokens contribute equally to diffusion learning
- Title(参考訳): すべてのトークンが拡散学習に等しく寄与するわけではない
- Authors: Guoqing Zhang, Lu Shi, Wanru Xu, Linna Zhang, Sen Wang, Fangfang Wang, Yigang Cen,
- Abstract要約: 条件拡散モデルは、推論中に意味的に重要なトークンを無視し、バイアスまたは不完全な世代をもたらす。
本研究では,分布の偏りと整合性の観点から意味指導を改善する統一的なフレームワークである分散型空間整合・アンサンブル型空間整合性(DARE)を提案する。
DAREは一貫してセマンティックアライメントを改善し、既存のアプローチよりも大幅に向上する。
- 参考スコア(独自算出の注目度): 16.928860227988086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of conditional diffusion models, significant progress has been made in text-to-video generation. However, we observe that these models often neglect semantically important tokens during inference, leading to biased or incomplete generations under classifier-free guidance. We attribute this issue to two key factors: distributional bias caused by the long-tailed token frequency in training data, and spatial misalignment in cross-attention where semantically important tokens are overshadowed by less informative ones. To address these issues, we propose Distribution-Aware Rectification and Spatial Ensemble (DARE), a unified framework that improves semantic guidance in diffusion models from the perspectives of distributional debiasing and spatial consistency. First, we introduce Distribution-Rectified Classifier-Free Guidance (DR-CFG), which regularizes the training process by dynamically suppressing dominant tokens with low semantic density, encouraging the model to better capture underrepresented semantic cues and learn a more balanced conditional distribution. This design mitigates the risk of the model distribution overfitting to tokens with low semantic density. Second, we propose Spatial Representation Alignment (SRA), which adaptively reweights cross-attention maps according to token importance and enforces representation consistency, enabling semantically important tokens to exert stronger spatial guidance during generation. This mechanism effectively prevents low semantic-density tokens from dominating the attention allocation, thereby avoiding the dilution of the spatial and distributional guidance provided by high semantic-density tokens. Extensive experiments on multiple benchmark datasets demonstrate that DARE consistently improves generation fidelity and semantic alignment, achieving significant gains over existing approaches.
- Abstract(参考訳): 条件付き拡散モデルの急速な発展に伴い、テキスト・ビデオ生成において大きな進展が見られた。
しかし、これらのモデルでは推論中に意味的に重要なトークンを無視することが多く、分類器のないガイダンスの下でバイアスや不完全な世代が発生する。
この問題は、トレーニングデータにおける長い尾のトークン周波数に起因する分布バイアスと、意味的に重要なトークンがあまり情報のないトークンによって隠蔽されるような、横断的アテンションにおける空間的ミスアライメントの2つの要因に起因している。
これらの課題に対処するため,分散モデルにおける意味的指導を改善する統一的なフレームワークである分布認識整合性と空間的整合性(DARE)を提案する。
まず,低セマンティック密度で支配的トークンを動的に抑制し,未表現のセマンティックキューをよりよく捕捉し,よりバランスの取れた条件分布を学習することで,トレーニングプロセスの規則化を図る。
この設計は、意味密度の低いトークンに過度に適合するモデル分布のリスクを軽減する。
第2に,トークンの重要度に応じてクロスアテンションマップを適応的に重み付けし,表現一貫性を強制する空間表現アライメント(SRA)を提案する。
この機構は、意味密度の低いトークンが注意割当を支配するのを効果的に防止し、高い意味密度のトークンによって提供される空間的および分布的ガイダンスの希釈を回避する。
複数のベンチマークデータセットに対する大規模な実験により、DAREは生成の忠実度とセマンティックアライメントを一貫して改善し、既存のアプローチよりも大幅に向上した。
関連論文リスト
- Reasoning with Latent Tokens in Diffusion Language Models [47.27454676014286]
拡散モデルは、現在のステップではデコードされないものを含む、未知のトークンの分布を共同で予測するように訓練されていることを示す。
補助的マルチトークン予測により,潜在トークンを自己回帰モデルに導入できることを実証する。
以上の結果から,潜伏トークンは自然に拡散する一方で,グローバルコヒーレンスやルックアヘッドを必要とするタスクの性能向上のための一般的なメカニズムを示すことが示唆された。
論文 参考訳(メタデータ) (2026-02-03T17:27:46Z) - Inference-time Alignment via Sparse Junction Steering [25.464612964225484]
推論時間アライメントのための重要なアプローチとして、トークンレベルのステアリングが登場している。
既存の手法はデコードの各ステップで密接な介入に依存している。
密接な介入は不要であり,スパースジャンクションステアリングを提案する。
論文 参考訳(メタデータ) (2026-01-30T08:40:47Z) - MixAR: Mixture Autoregressive Image Generation [12.846100277592969]
連続的自己回帰モデリングのための事前ガイダンスとして離散トークンを注入する新しいフレームワークであるMixARを紹介する。
本稿では、自己注意(DC-SA)、クロスアテンション(DC-CA)、均一なマスクトークンを情報的な個別のトークンに置き換える単純なアプローチ(DC-Mix)など、いくつかの離散連続混合戦略について検討する。
論文 参考訳(メタデータ) (2025-11-15T12:19:28Z) - Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL [19.094835780362775]
FSCIL(Few-Shot Class-Incremental Learning)は、最小限の例から新しいクラスを逐次学習するモデルに挑戦する。
現在のFSCIL法は、限られたデータセットに依存するため、一般化に苦慮することが多い。
本稿では拡散モデルとFSCIL分類器の相互強化ループを確立する新しいフレームワークであるDiffusion-Classifier Synergy(DCS)を紹介する。
論文 参考訳(メタデータ) (2025-10-04T01:48:52Z) - Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner [66.86440230599656]
拡散言語モデルは必ずしも離散空間にある必要はないと主張する。
特に、連続拡散モデルが離散拡散やループ変換器よりも強い表現性を持つことを示す。
本稿では,連続表現空間と離散トークン空間の結合に関する共同多モード拡散過程を定義する共進化連続拡散法(CCDD)を提案する。
論文 参考訳(メタデータ) (2025-10-03T17:44:41Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Margin Preserving Self-paced Contrastive Learning Towards Domain
Adaptation for Medical Image Segmentation [51.93711960601973]
クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習モデルを保存する新しいマージンを提案する。
プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。
クロスモーダル心セグメンテーションタスクの実験は、MPSCLが意味セグメンテーション性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-03-15T15:23:10Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z) - From Anchor Generation to Distribution Alignment: Learning a
Discriminative Embedding Space for Zero-Shot Recognition [46.47620562161315]
ゼロショット学習(ZSL)では、分類されるサンプルは通常、属性などのサイド情報テンプレートに投影される。
我々は,DAGDA(Distriminative Anchor Generation and Distribution Alignment Model)と呼ばれる新しいフレームワークを提案する。
まず, 拡散型グラフ畳み込みネットワークを用いて, クラス情報と側情報の相互作用を明示的にモデル化し, 識別的アンカーを生成する手法を提案する。
第二に、アンカー空間におけるサンプルと対応するアンカーとをさらに整合させるため、細粒度に分布を洗練させることを目的として、意味的関係正則化を導入する。
論文 参考訳(メタデータ) (2020-02-10T05:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。