Fugu-MT 論文翻訳(概要): Denoising Task Routing for Diffusion Models

論文の概要: Denoising Task Routing for Diffusion Models

arxiv url: http://arxiv.org/abs/2310.07138v3
Date: Wed, 21 Feb 2024 04:00:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 12:06:40.733949
Title: Denoising Task Routing for Diffusion Models
Title（参考訳）: 拡散モデルのためのタスクルーティングのDenoising
Authors: Byeongjun Park, Sangmin Woo, Hyojun Go, Jin-Young Kim, Changick Kim
Abstract要約: 拡散モデルは、多段階の復調過程を学習することにより、非常にリアルな画像を生成する。拡散モデルとマルチタスク学習(MTL)の間に固有のつながりがあるにもかかわらず、ニューラルネットワークの設計には未解明領域が残っている。本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)について述べる。
参考スコア（独自算出の注目度）: 19.373733104929325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models generate highly realistic images by learning a multi-step denoising process, naturally embodying the principles of multi-task learning (MTL). Despite the inherent connection between diffusion models and MTL, there remains an unexplored area in designing neural architectures that explicitly incorporate MTL into the framework of diffusion models. In this paper, we present Denoising Task Routing (DTR), a simple add-on strategy for existing diffusion model architectures to establish distinct information pathways for individual tasks within a single architecture by selectively activating subsets of channels in the model. What makes DTR particularly compelling is its seamless integration of prior knowledge of denoising tasks into the framework: (1) Task Affinity: DTR activates similar channels for tasks at adjacent timesteps and shifts activated channels as sliding windows through timesteps, capitalizing on the inherent strong affinity between tasks at adjacent timesteps. (2) Task Weights: During the early stages (higher timesteps) of the denoising process, DTR assigns a greater number of task-specific channels, leveraging the insight that diffusion models prioritize reconstructing global structure and perceptually rich contents in earlier stages, and focus on simple noise removal in later stages. Our experiments reveal that DTR not only consistently boosts diffusion models' performance across different evaluation protocols without adding extra parameters but also accelerates training convergence. Finally, we show the complementarity between our architectural approach and existing MTL optimization techniques, providing a more complete view of MTL in the context of diffusion training. Significantly, by leveraging this complementarity, we attain matched performance of DiT-XL using the smaller DiT-L with a reduction in training iterations from 7M to 2M.
Abstract（参考訳）: 拡散モデルは、マルチタスク学習(mtl)の原則を自然に具現化し、多段階の分断過程を学習することで、高度に現実的な画像を生成する。拡散モデルとMLLの間には固有の関係があるが、MTLを拡散モデルの枠組みに明示的に組み込むニューラルネットワークの設計には未解明領域が残っている。本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)を提案する。タスク親和性(Task Affinity): DTRは、隣接する時間ステップにおけるタスクに対する同様のチャネルを活性化し、隣接する時間ステップにおけるタスク間の固有の強い親和性を利用して、スライディングウィンドウとしてアクティブなチャネルをシフトする。 2) タスク重み: 雑音化プロセスの初期段階(高い時間ステップ)において、dtrはより多くのタスク固有のチャネルを割り当て、拡散モデルが初期段階でグローバル構造と知覚的にリッチなコンテンツの再構築を優先し、後段の単純なノイズ除去に重点を置くという洞察を生かした。実験の結果,DTRはパラメータを追加することなく,異なる評価プロトコル間の拡散モデルの性能を連続的に向上するだけでなく,学習の収束を促進させることがわかった。最後に、我々のアーキテクチャアプローチと既存のMTL最適化手法の相補性を示し、拡散訓練の文脈におけるMTLのより完全なビューを提供する。この相補性を生かして,7Mから2Mまでのトレーニングイテレーションを短縮したDiT-XLの小型化を実現した。

関連論文リスト

Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文参考訳（メタデータ） (2026-02-23T00:33:38Z)
NTKMTL: Mitigating Task Imbalance in Multi-Task Learning from Neural Tangent Kernel Perspective [58.345210583013454]
マルチタスク学習(MTL)は、1つのモデルで複数のタスクを同時に学習することを可能にする。 MTLにおけるタスクの不均衡は依然として大きな課題である。 NTKMTL という新しい MTL 法を提案し,MTL のトレーニングダイナミクスを解析する。
論文参考訳（メタデータ） (2025-10-21T03:29:40Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Linear Diffusion Networks [0.0]
本稿では、逐次データ処理を統一拡散プロセスとして再解釈する新しいアーキテクチャであるLinear Diffusion Networks(LDNs)を提案する。本モデルでは,適応拡散モジュールと局所的な非線形更新と拡散に着想を得た注意機構を統合した。ベンチマークシーケンスモデリングタスクの実験は、LDNがImageNetとLRAタスク間で競合するパフォーマンスを提供することを示した。
論文参考訳（メタデータ） (2025-02-17T23:40:27Z)
Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文参考訳（メタデータ） (2024-10-14T00:41:58Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T17:48:09Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)
Addressing Negative Transfer in Diffusion Models [25.457422246404853]
マルチタスク学習(MTL)は拡散モデルにおいて負の伝達をもたらすことがある。本稿では,タスクを小さなタスククラスタにクラスタ化し,MTL手法を適用することを提案する。本研究では,信号対雑音比,時間ステップ,タスク親和性を利用して,動的プログラミングを用いて区間クラスタリングを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-01T05:17:07Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-22T09:48:41Z)
Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文参考訳（メタデータ） (2022-04-30T09:01:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。