論文の概要: Underlying Semantic Diffusion for Effective and Efficient In-Context Learning
- arxiv url: http://arxiv.org/abs/2503.04050v1
- Date: Thu, 06 Mar 2025 03:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:44.685132
- Title: Underlying Semantic Diffusion for Effective and Efficient In-Context Learning
- Title(参考訳): 効果的な文脈内学習のための意味的拡散
- Authors: Zhong Ji, Weilong Cao, Yan Zhang, Yanwei Pang, Jungong Han, Xuelong Li,
- Abstract要約: Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
- 参考スコア(独自算出の注目度): 113.4003355229632
- License:
- Abstract: Diffusion models has emerged as a powerful framework for tasks like image controllable generation and dense prediction. However, existing models often struggle to capture underlying semantics (e.g., edges, textures, shapes) and effectively utilize in-context learning, limiting their contextual understanding and image generation quality. Additionally, high computational costs and slow inference speeds hinder their real-time applicability. To address these challenges, we propose Underlying Semantic Diffusion (US-Diffusion), an enhanced diffusion model that boosts underlying semantics learning, computational efficiency, and in-context learning capabilities on multi-task scenarios. We introduce Separate & Gather Adapter (SGA), which decouples input conditions for different tasks while sharing the architecture, enabling better in-context learning and generalization across diverse visual domains. We also present a Feedback-Aided Learning (FAL) framework, which leverages feedback signals to guide the model in capturing semantic details and dynamically adapting to task-specific contextual cues. Furthermore, we propose a plug-and-play Efficient Sampling Strategy (ESS) for dense sampling at time steps with high-noise levels, which aims at optimizing training and inference efficiency while maintaining strong in-context learning performance. Experimental results demonstrate that US-Diffusion outperforms the state-of-the-art method, achieving an average reduction of 7.47 in FID on Map2Image tasks and an average reduction of 0.026 in RMSE on Image2Map tasks, while achieving approximately 9.45 times faster inference speed. Our method also demonstrates superior training efficiency and in-context learning capabilities, excelling in new datasets and tasks, highlighting its robustness and adaptability across diverse visual domains.
- Abstract(参考訳): 拡散モデルは、画像制御可能な生成や密度予測といったタスクのための強力なフレームワークとして登場した。
しかし、既存のモデルは、下層のセマンティクス(例えば、エッジ、テクスチャ、形状)を捉え、コンテキスト内学習を効果的に活用し、文脈的理解と画像生成の品質を制限するのに苦労することが多い。
さらに、高い計算コストと遅い推論速度は、そのリアルタイム適用性を妨げている。
これらの課題に対処するため、マルチタスクシナリオにおけるセマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルであるUnderlying Semantic Diffusion (US-Diffusion)を提案する。
アーキテクチャを共有しながら、異なるタスクの入力条件を分離し、さまざまな視覚領域にわたるコンテキスト内学習と一般化を可能にするセパレート・アンド・ギャザ・アダプタ(SGA)を導入する。
また,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
さらに,高雑音レベルにおける高濃度サンプリングのためのプラグイン・アンド・プレイ能率サンプリング戦略 (ESS) を提案する。
実験の結果、US拡散は最先端の手法よりも優れており、Map2イメージタスクではFID平均7.47、Image2MapタスクではRMSE平均0.026、推論速度は約9.45倍であることがわかった。
また,本手法は,学習効率とコンテキスト内学習能力に優れ,新しいデータセットやタスクに優れ,多様な視覚領域にまたがる堅牢性と適応性を強調した。
関連論文リスト
- Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Knowledge-guided EEG Representation Learning [27.8095014391814]
自己教師付き学習は、音声、視覚、および音声のマルチメディア領域において印象的な結果をもたらした。
本稿では,脳波の自己教師型モデルを提案する。
また,脳波信号の慣用性を考慮した知識誘導事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T01:52:44Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning [16.902924543372713]
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。
実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-18T10:40:25Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。