Fugu-MT 論文翻訳(概要): Switch Diffusion Transformer: Synergizing Denoising Tasks with Sparse Mixture-of-Experts

論文の概要: Switch Diffusion Transformer: Synergizing Denoising Tasks with Sparse Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2403.09176v2
Date: Wed, 10 Jul 2024 07:39:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 21:29:48.899915
Title: Switch Diffusion Transformer: Synergizing Denoising Tasks with Sparse Mixture-of-Experts
Title（参考訳）: Switch Diffusion Transformer:Sparse Mixture-of-ExpertsによるDenoising Tasksの同期
Authors: Byeongjun Park, Hyojun Go, Jin-Young Kim, Sangmin Woo, Seokil Ham, Changick Kim,
Abstract要約: 拡散モデルは、様々な生成的タスクで顕著な成功を収めた。近年の取り組みは、各タスクが特定の雑音レベルにおける認知タスクに対応するマルチタスク学習の形式として再認識されている。タスク間のタスク間関係を確立するSwitch-DiT(Switch Diffusion Transformer)を導入する。
参考スコア（独自算出の注目度）: 17.04227271007777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have achieved remarkable success across a range of generative tasks. Recent efforts to enhance diffusion model architectures have reimagined them as a form of multi-task learning, where each task corresponds to a denoising task at a specific noise level. While these efforts have focused on parameter isolation and task routing, they fall short of capturing detailed inter-task relationships and risk losing semantic information, respectively. In response, we introduce Switch Diffusion Transformer (Switch-DiT), which establishes inter-task relationships between conflicting tasks without compromising semantic information. To achieve this, we employ a sparse mixture-of-experts within each transformer block to utilize semantic information and facilitate handling conflicts in tasks through parameter isolation. Additionally, we propose a diffusion prior loss, encouraging similar tasks to share their denoising paths while isolating conflicting ones. Through these, each transformer block contains a shared expert across all tasks, where the common and task-specific denoising paths enable the diffusion model to construct its beneficial way of synergizing denoising tasks. Extensive experiments validate the effectiveness of our approach in improving both image quality and convergence rate, and further analysis demonstrates that Switch-DiT constructs tailored denoising paths across various generation scenarios.
Abstract（参考訳）: 拡散モデルは、様々な生成的タスクで顕著な成功を収めた。拡散モデルアーキテクチャの強化に向けた近年の取り組みは,各タスクが特定の雑音レベルにおける認知タスクに対応するマルチタスク学習の形式として再認識されている。これらの取り組みはパラメータ分離とタスクルーティングに重点を置いているが、それらはそれぞれ、タスク間の詳細な関係と、セマンティック情報を失うリスクを捉えていない。これに対して,Switch Diffusion Transformer (Switch-DiT)を導入し,意味情報を妥協することなくタスク間のタスク間関係を確立する。これを実現するために,各変圧器ブロック内にスパース・オブ・エグゼクティブ(sparse Mixed-of-experts)を用いて意味情報を活用し,パラメータ分離によるタスク間の競合の処理を容易にする。さらに,相反するタスクを分離しながら,相反するタスクの共有を奨励する拡散先行損失を提案する。これらを通じて、各トランスフォーマーブロックは、すべてのタスクをまたがる共有専門家を含み、共通およびタスク特化経路により、拡散モデルは、タスクを相乗化するための有益な方法を構築することができる。画像品質と収束率の両面でのアプローチの有効性を検証し,さらに解析を行った結果,Switch-DiTは様々な生成シナリオにまたがるカスタマイズされたデノナイジングパスを構築していることがわかった。

関連論文リスト

Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts [11.307588007047407]
マルチモーダル・大規模言語モデル(MLLM)は、理解タスクと生成タスクを単一のフレームワークに統合する。固有のタスク目的理解における高レベルのセマンティックな抽象化と、生成時のきめ細かい詳細保存との間の対立は、重大な課題である。タスク目的の衝突を解決するために,ARの内部コンポーネントを分離する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-06-04T05:44:21Z)
Generative Trajectory Stitching through Diffusion Composition [29.997765496994457]
CompDiffuserは、これまで見てきたタスクから短い軌跡を合成的に縫い合わせることで、新しいタスクを解決できる新しい生成的アプローチである。我々は,さまざまな環境サイズ,エージェント状態次元,軌道タイプ,データ品質のトレーニングなど,さまざまな課題のベンチマークタスクについて実験を行い,CompDiffuserが既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-07T05:22:52Z)
Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文参考訳（メタデータ） (2025-01-24T10:00:47Z)
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文参考訳（メタデータ） (2024-06-28T10:05:58Z)
DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data [16.501973201535442]
我々は,部分ラベル付きマルチタスクの高密度予測を画素レベルの分解問題として再検討する。本稿では,DiffusionMTLと呼ばれる新しいマルチタスク・デノナイズ・フレームワークを提案する。タスク予測や特徴写像の潜在的なノイズ分布をモデル化するために、共用拡散・雑音化パラダイムを設計する。
論文参考訳（メタデータ） (2024-03-22T17:59:58Z)
DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文参考訳（メタデータ） (2024-02-03T06:49:42Z)
Denoising Task Routing for Diffusion Models [19.373733104929325]
拡散モデルは、多段階の復調過程を学習することにより、非常にリアルな画像を生成する。拡散モデルとマルチタスク学習(MTL)の間に固有のつながりがあるにもかかわらず、ニューラルネットワークの設計には未解明領域が残っている。本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)について述べる。
論文参考訳（メタデータ） (2023-10-11T02:23:18Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Mitigating Task Interference in Multi-Task Learning via Explicit Task Routing with Non-Learnable Primitives [19.90788777476128]
マルチタスク学習(MTL)は、タスク間の共有情報を活用することで、複数のタスクを達成するための単一のモデルを学ぶことを目指している。既存のMLLモデルはタスク間の負の干渉に悩まされていることが知られている。本研究では,非学習可能なプリミティブと明示的なタスクルーティングの相乗的組み合わせによるタスク干渉を軽減するためのETR-NLPを提案する。
論文参考訳（メタデータ） (2023-08-03T22:34:16Z)
Curbing Task Interference using Representation Similarity-Guided Multi-Task Feature Sharing [12.525959293825318]
エンコーダとデコーダの両方を共有することで、高密度予測タスクのマルチタスク学習は、精度と計算効率の両方を向上させるための魅力的なフロントを提供する。本稿では,タスクデコーダをタスク間表現の類似性に基づいて段階的に結合するプログレッシブデコーダ・フュージョン(PDF)を提案する。本手法により,マルチタスクネットワークの実現が図られ,分布内および分布外データへの一般化が向上し,敵攻撃に対するロバスト性が向上した。
論文参考訳（メタデータ） (2022-08-19T16:19:20Z)
Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文参考訳（メタデータ） (2022-06-08T16:58:47Z)
Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents [52.55119217982361]
協調型マルチエージェント群を用いて,雑音の多いインスタンスを処理するための共同抽出手法を提案する。ノイズの多いインスタンスをきめ細かな方法で処理するために、協調グループの各エージェントは、自身の視点で連続的な信頼スコアを算出してインスタンスを評価する。信頼度コンセンサスモジュールは、すべてのエージェントの知恵を収集し、信頼度ラベル付きラベルでノイズの多いトレーニングセットを再分割するように設計されている。
論文参考訳（メタデータ） (2020-04-21T12:03:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。