論文の概要: Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
- arxiv url: http://arxiv.org/abs/2410.09347v1
- Date: Sat, 12 Oct 2024 03:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:03:37.983472
- Title: Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
- Title(参考訳): コンディションコントラストアライメントによる誘導自由AR視覚生成に向けて
- Authors: Huayu Chen, Hang Su, Peize Sun, Jun Zhu,
- Abstract要約: 言語モデルアライメント手法により,高機能な誘導不要なAR視覚生成を容易にするためのテキストコンディションコントラストアライメント(CCA)を提案する。
実験の結果,CCAは1つのエポック微調整で全試験モデルの誘導不要性能を著しく向上させることができることがわかった。
このことは,言語的アライメントと視覚的アライメントの強い関係を実験的に確認する。
- 参考スコア(独自算出の注目度): 31.402736873762418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-Free Guidance (CFG) is a critical technique for enhancing the sample quality of visual generative models. However, in autoregressive (AR) multi-modal generation, CFG introduces design inconsistencies between language and visual content, contradicting the design philosophy of unifying different modalities for visual AR. Motivated by language model alignment methods, we propose \textit{Condition Contrastive Alignment} (CCA) to facilitate guidance-free AR visual generation with high performance and analyze its theoretical connection with guided sampling methods. Unlike guidance methods that alter the sampling process to achieve the ideal sampling distribution, CCA directly fine-tunes pretrained models to fit the same distribution target. Experimental results show that CCA can significantly enhance the guidance-free performance of all tested models with just one epoch of fine-tuning ($\sim$ 1\% of pretraining epochs) on the pretraining dataset, on par with guided sampling methods. This largely removes the need for guided sampling in AR visual generation and cuts the sampling cost by half. Moreover, by adjusting training parameters, CCA can achieve trade-offs between sample diversity and fidelity similar to CFG. This experimentally confirms the strong theoretical connection between language-targeted alignment and visual-targeted guidance methods, unifying two previously independent research fields. Code and model weights: https://github.com/thu-ml/CCA.
- Abstract(参考訳): 分類自由誘導(CFG)は視覚生成モデルのサンプル品質を高める重要な手法である。
しかし、自己回帰(AR)マルチモーダル生成において、CFGは言語と視覚コンテンツ間の設計の不整合を導入し、視覚ARの異なるモダリティを統一する設計哲学と矛盾する。
言語モデルアライメント法により,誘導不要なAR視覚生成を高速に支援し,ガイド付きサンプリング手法との理論的関連性を分析するために,CCA(textit{Condition Contrastive Alignment})を提案する。
理想的なサンプリング分布を達成するためにサンプリングプロセスを変更するガイダンス方法とは異なり、CAAはトレーニング済みモデルを直接微調整して同じ分布ターゲットに適合させる。
実験結果から, CCAは, 事前学習データセット上での微調整(事前学習期間の1\%)を, ガイド付きサンプリング手法と同等に行うことで, 全試験モデルのガイダンスフリー性能を著しく向上させることができることがわかった。
これにより、ARビジュアル生成におけるガイド付きサンプリングの必要性を大きく取り除き、サンプリングコストを半分に削減できる。
さらに, トレーニングパラメータの調整により, CCAはCFGと同様の多様性と忠実度とのトレードオフを達成できる。
このことは、言語的アライメントと視覚的アライメントの強い関係を実験的に確認し、これまで独立していた2つの研究分野を統一する。
コードとモデルウェイト:https://github.com/thu-ml/CCA。
関連論文リスト
- Learning from Different Samples: A Source-free Framework for Semi-supervised Domain Adaptation [20.172605920901777]
本稿では,異なる対象サンプルを包括的にマイニングするための異なる戦略を利用するフレームワークの設計に焦点をあてる。
そこで本研究では,対象領域における事前学習モデルの半教師付き微調整を実現するための,新しいソースフリーフレームワーク(SOUF)を提案する。
論文 参考訳(メタデータ) (2024-11-11T02:09:32Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Adaptive Weighted Co-Learning for Cross-Domain Few-Shot Learning [23.615250207134004]
クロスドメイン少ショット学習(CDFSL)は、非常に困難な適応問題を引き起こす。
適応重み付き共学習法(AWCoL)を提案し,CDFSL問題に対処する。
複数のベンチマークデータセットに対して総合的な実験を行い,提案手法が最先端のCDFSL性能を実現することを示す実証実験を行った。
論文 参考訳(メタデータ) (2023-12-06T22:09:52Z) - Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Leveraging Angular Information Between Feature and Classifier for
Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。
予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。
CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文 参考訳(メタデータ) (2022-12-03T07:52:48Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。