論文の概要: Implementing Adaptations for Vision AutoRegressive Model
- arxiv url: http://arxiv.org/abs/2507.11441v2
- Date: Mon, 28 Jul 2025 14:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.9666
- Title: Implementing Adaptations for Vision AutoRegressive Model
- Title(参考訳): 視覚自己回帰モデルに対する適応の実装
- Authors: Kaif Shaikh, Franziska Boenisch, Adam Dziedzic,
- Abstract要約: Vision AutoRegressive Model (VAR)は、画像生成領域における拡散モデル(DM)の代替として最近導入された。
本研究は,医療データ生成など,特定の下流タスクを実行するために,事前学習したモデルを微調整することを目的とした適応に焦点を当てる。
VARのための多くの戦略を実装・ベンチマークし、それらを最先端のDM適応戦略と比較する。
- 参考スコア(独自算出の注目度): 4.701168526442569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision AutoRegressive model (VAR) was recently introduced as an alternative to Diffusion Models (DMs) in image generation domain. In this work we focus on its adaptations, which aim to fine-tune pre-trained models to perform specific downstream tasks, like medical data generation. While for DMs there exist many techniques, adaptations for VAR remain underexplored. Similarly, differentially private (DP) adaptations-ones that aim to preserve privacy of the adaptation data-have been extensively studied for DMs, while VAR lacks such solutions. In our work, we implement and benchmark many strategies for VAR, and compare them to state-of-the-art DM adaptation strategies. We observe that VAR outperforms DMs for non-DP adaptations, however, the performance of DP suffers, which necessitates further research in private adaptations for VAR. Code is available at https://github.com/sprintml/finetuning_var_dp.
- Abstract(参考訳): Vision AutoRegressive Model (VAR) は画像生成領域における拡散モデル(DM)の代替として最近導入された。
本研究は,医療データ生成など,特定の下流タスクを実行するために,事前学習したモデルを微調整することを目的とした適応に焦点を当てる。
DMには多くの技術があるが、VARの適応は未解明のままである。
同様に、適応データのプライバシを保護するための差分プライベート(DP)適応は、DMのために広く研究されてきたが、VARにはそのような解決策がない。
本稿では,VARの多くの戦略を実装・ベンチマークし,最先端のDM適応戦略と比較する。
VAR は非DP適応において DM よりも優れているが,DP の性能は低下しており,VAR の個人適応においてさらなる研究が必要である。
コードはhttps://github.com/sprintml/finetuning_var_dp.comで入手できる。
関連論文リスト
- MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。
MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。
本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-05-30T14:46:05Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Differentially Private Diffusion Models [46.46256537222917]
我々は近年の拡散モデル(DM)の成功の上に構築され、微分プライベート拡散モデル(DPDM)を導入している。
DMのトレーニングに適したDP-SGDの強力な修正であるノイズ多重性を提案する。
我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:20:47Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Universal Adaptive Data Augmentation [30.83891617679216]
UADA(Universal Adaptive Data Augmentation)は、新しいデータ拡張戦略である。
トレーニング中のデータバッチ毎に,DA操作のタイプとサイズをランダムに決定します。
UADAはターゲットモデルの勾配情報に従ってDAのパラメータを適応的に更新する。
論文 参考訳(メタデータ) (2022-07-14T05:05:43Z) - Style-Guided Domain Adaptation for Face Presentation Attack Detection [21.959450790863432]
推論時適応型PADのための新しいスタイルガイド型ドメイン適応フレームワークを提案する。
スタイル選択正規化(SSN)は、高次特徴統計量内でのドメイン固有のスタイル情報を調べるために提案される。
提案したSSNは,ターゲットドメインとソースドメインのスタイル差を小さくすることで,ターゲットドメインへのモデルの適応を可能にする。
論文 参考訳(メタデータ) (2022-03-28T08:14:19Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。