論文の概要: ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2406.01432v1
- Date: Mon, 3 Jun 2024 15:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:30:12.280535
- Title: ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models
- Title(参考訳): ED-SAM:視覚言語基礎モデルにおけるドメイン一般化のための効率的な拡散サンプリング手法
- Authors: Thanh-Dat Truong, Xin Li, Bhiksha Raj, Jackson Cothren, Khoa Luu,
- Abstract要約: 本稿では,視覚言語基盤モデルの一般化性を改善するために,ドメイン一般化(ED-SAM)に対する簡易かつ効率的な拡散サンプリング手法を提案する。
CC3M, CC12M, LAION400Mなど, 視覚言語による事前学習データセットのスケールに関する実験結果は, 常に最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 32.186630465963795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision-Language Foundation Model has recently shown outstanding performance in various perception learning tasks. The outstanding performance of the vision-language model mainly relies on large-scale pre-training datasets and different data augmentation techniques. However, the domain generalization problem of the vision-language foundation model needs to be addressed. This problem has limited the generalizability of the vision-language foundation model to unknown data distributions. In this paper, we introduce a new simple but efficient Diffusion Sampling approach to Domain Generalization (ED-SAM) to improve the generalizability of the vision-language foundation model. Our theoretical analysis in this work reveals the critical role and relation of the diffusion model to domain generalization in the vision-language foundation model. Then, based on the insightful analysis, we introduce a new simple yet effective Transport Transformation to diffusion sampling method. It can effectively generate adversarial samples to improve the generalizability of the foundation model against unknown data distributions. The experimental results on different scales of vision-language pre-training datasets, including CC3M, CC12M, and LAION400M, have consistently shown State-of-the-Art performance and scalability of the proposed ED-SAM approach compared to the other recent methods.
- Abstract(参考訳): Vision-Language Foundation Modelは、近年、様々な認知学習タスクにおいて優れたパフォーマンスを示している。
視覚言語モデルの卓越した性能は、主に大規模事前学習データセットと異なるデータ拡張技術に依存している。
しかし、ビジョン言語基盤モデルの領域一般化の問題に対処する必要がある。
この問題は、視覚言語基礎モデルの未知のデータ分布への一般化性に制限を与えている。
本稿では、視覚言語基盤モデルの一般化性を改善するために、ドメイン一般化(ED-SAM)に対する簡易かつ効率的な拡散サンプリング手法を提案する。
本研究の理論的解析は,視覚言語基礎モデルにおける拡散モデルと領域一般化の批判的役割と関係を明らかにする。
そこで,本研究では,拡散サンプリング法に簡易かつ効果的なトランスポートトランスフォーメーションを導入する。
敵のサンプルを効果的に生成し、未知のデータ分布に対する基礎モデルの一般化性を向上させる。
CC3M, CC12M, LAION400Mなど, 視覚言語による事前学習データセットのさまざまなスケールに関する実験結果から, 提案したED-SAMアプローチの最先端性能とスケーラビリティが他の手法と比較して一貫して示されている。
関連論文リスト
- Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Model-Based Diffusion for Trajectory Optimization [8.943418808959494]
データ無しで軌道最適化(TO)問題を解決するために拡散法を用いた最適化手法であるモデルベース拡散(MBD)を導入する。
MBDは外部データを必要としないが、様々な性質のデータと自然に統合して拡散過程を制御できる。
MBDは、最先端の強化学習とサンプリングベースのTOメソッドを上回り、コンタクトリッチなタスクに挑戦する。
論文 参考訳(メタデータ) (2024-05-28T22:14:25Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Diffusion Models Trained with Large Data Are Transferable Visual Models [49.84679952948808]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Enhancing Robustness of Foundation Model Representations under
Provenance-related Distribution Shifts [8.298173603769063]
分布シフト下における基礎モデルに基づくモデルの安定性について検討する。
我々は,多施設データセットの文脈に現れる分布シフトの形式である,証明によるコンバウンディングに焦点をあてる。
その結果, 基礎モデルでは, コンバウンド・バイ・プロビデンス関係の分布シフトに対して, ある程度の頑健性を示すが, 調整により改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-09T02:02:45Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。