論文の概要: Test-Time Conditioning with Representation-Aligned Visual Features
- arxiv url: http://arxiv.org/abs/2602.03753v1
- Date: Tue, 03 Feb 2026 17:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.597512
- Title: Test-Time Conditioning with Representation-Aligned Visual Features
- Title(参考訳): 表現に相応しい視覚特徴を用いたテスト時間条件付け
- Authors: Nicolas Sereyjol-Garros, Ellington Kirby, Victor Letzelter, Victor Besnier, Nermin Samet,
- Abstract要約: Representation-Aligned Guidance (REPA-G)を導入する。
我々は,事前学習した特徴抽出器から抽出した条件付き表現に対して,デノナイズ処理を行う。
提案手法は, 単一パッチによるきめ細かいテクスチャマッチングから, 広義の意味指導まで, 複数スケールで多目的制御を行う。
- 参考スコア(独自算出の注目度): 9.262325724962485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While representation alignment with self-supervised models has been shown to improve diffusion model training, its potential for enhancing inference-time conditioning remains largely unexplored. We introduce Representation-Aligned Guidance (REPA-G), a framework that leverages these aligned representations, with rich semantic properties, to enable test-time conditioning from features in generation. By optimizing a similarity objective (the potential) at inference, we steer the denoising process toward a conditioned representation extracted from a pre-trained feature extractor. Our method provides versatile control at multiple scales, ranging from fine-grained texture matching via single patches to broad semantic guidance using global image feature tokens. We further extend this to multi-concept composition, allowing for the faithful combination of distinct concepts. REPA-G operates entirely at inference time, offering a flexible and precise alternative to often ambiguous text prompts or coarse class labels. We theoretically justify how this guidance enables sampling from the potential-induced tilted distribution. Quantitative results on ImageNet and COCO demonstrate that our approach achieves high-quality, diverse generations. Code is available at https://github.com/valeoai/REPA-G.
- Abstract(参考訳): 自己教師付きモデルとの表現アライメントは拡散モデルトレーニングを改善することが示されているが、推論時条件付けを向上する可能性はほとんど探索されていない。
Representation-Aligned Guidance (REPA-G) は、これらの整列表現をリッチなセマンティックプロパティで活用し、世代内の特徴からテスト時の条件付けを可能にするフレームワークである。
推定時の類似度目標(ポテンシャル)を最適化することにより,事前学習した特徴抽出器から抽出した条件付き表現に対して,デノナイズ処理を行う。
提案手法は,単一パッチによるきめ細かいテクスチャマッチングから,グローバル画像特徴トークンを用いた広範囲なセマンティックガイダンスまで,複数のスケールで多目的制御を実現する。
さらにこれを多概念合成に拡張し、異なる概念の忠実な組み合わせを可能にする。
REPA-Gは完全に推論時に動作し、しばしば曖昧なテキストプロンプトや粗いクラスラベルに代わる柔軟で正確な代替手段を提供する。
理論的には、このガイダンスが電位誘起傾斜分布のサンプリングをいかに可能にしているかを正当化する。
ImageNet と COCO の定量的結果は,我々のアプローチが高品質で多様な世代を達成できることを実証している。
コードはhttps://github.com/valeoai/REPA-Gで公開されている。
関連論文リスト
- Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector [14.027059904924135]
本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
論文 参考訳(メタデータ) (2026-01-30T02:29:54Z) - GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Unsupervised Representation Learning by Balanced Self Attention Matching [2.3020018305241337]
本稿では,BAMと呼ばれる画像特徴を埋め込む自己教師型手法を提案する。
我々は,これらの分布とグローバルな均衡とエントロピー正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避する。
半教師付きベンチマークと移動学習ベンチマークの両方において,先行手法と競合する性能を示す。
論文 参考訳(メタデータ) (2024-08-04T12:52:44Z) - DiffuseGAE: Controllable and High-fidelity Image Manipulation from
Disentangled Representation [14.725538019917625]
拡散確率モデル (DPM) は様々な画像合成タスクにおいて顕著な結果を示した。
DPMには低次元、解釈可能、そしてよく分離された潜在コードがない。
自動符号化による表現学習におけるDPMの可能性を探るため,Diff-AEを提案する。
論文 参考訳(メタデータ) (2023-07-12T04:11:08Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Generalized Adversarially Learned Inference [42.40405470084505]
我々は、画像生成器とエンコーダを逆向きにトレーニングし、画像と潜時ベクトル対の2つの結合分布を一致させることにより、GAN内の潜時変数を推定する方法を開発した。
我々は、望まれるソリューションに関する事前または学習知識に基づいて、再構築、自己監督、その他の形式の監督に関する複数のフィードバック層を組み込んだ。
論文 参考訳(メタデータ) (2020-06-15T02:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。