論文の概要: VAGS: Velocity Adaptive Guidance Scale for Image Editing and Generation
- arxiv url: http://arxiv.org/abs/2605.15661v1
- Date: Fri, 15 May 2026 06:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.192573
- Title: VAGS: Velocity Adaptive Guidance Scale for Image Editing and Generation
- Title(参考訳): VAGS:画像編集・生成のためのベロシティ適応誘導尺度
- Authors: Yan Luo, Ahmadou Aidara, Jingyi Lu, Jeremy Moebel, Kai Han, Mengyu Wang,
- Abstract要約: COCOフリーガイダンス(CFG)は、テキストセマンティクスがフローベースのサンプルをいかに動かせるかに関する主要な制御である。
本稿では,有界因子で名目規模を乗算する,トレーニング不要の代替案であるVAGSを提案する。
VAGSは、固定CFGと最近のトレーニングフリーガイダンスの変種に対して、構造的忠実度と生成品質を一貫して改善する。
- 参考スコア(独自算出の注目度): 15.19510801548845
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Classifier-free guidance (CFG) is the primary control over how strongly text semantics move a flow-based sampler, yet standard practice holds its scale fixed across the entire ODE trajectory. This is a fundamental mismatch: early steps are noise-dominated and carry weak semantic signal, while late steps commit image structure and demand stronger directional commitment; more critically, the value of any guidance strength depends on whether the guided velocity is consistent with the model's current dynamics or working against them. We propose \textit{Velocity-Adaptive Guidance Scale} (VAGS), a training-free replacement that multiplies the nominal scale by a bounded factor combining a temporal signal-level term with the cosine similarity between task-relevant velocity fields. For inversion-free editing, VAGS measures the alignment between source- and target-guided velocities, so edit strength at each step reflects local compatibility between preservation and transformation. For generation, VAGS-Gen uses the alignment between unconditional and conditional velocities as the analogous signal. Neither variant requires fine-tuning, auxiliary networks, or extra forward passes, and fixed CFG is recovered as a special case. On PIE-Bench and DIV2K for editing, and COCO17, CUB-200, and Flickr30K for generation, VAGS consistently improves structural fidelity and generation quality over fixed CFG and recent training-free guidance variants. The code is publicly available at https://github.com/Harvard-AI-and-Robotics-Lab/Velocity_Adaptive_Guidance_Scale.
- Abstract(参考訳): クラシファイアフリーガイダンス(CFG)は、フローベースのスケジューラをいかに強力にテキストセマンティクスが移動するかに関する主要なコントロールであるが、標準的なプラクティスでは、そのスケールはODE全体にわたって固定されている。
これは基本的なミスマッチであり、初期ステップはノイズに支配され、弱いセマンティック信号を持ち、後期ステップはイメージ構造をコミットし、より強力な方向性のコミットメントを要求する。
本稿では,時間的信号レベル項とタスク関連速度場間の余弦的類似性を組み合わせた有界因子により,名目規模を乗じる訓練不要な代替案である‘textit{Velocity-Adaptive Guidance Scale’ (VAGS)を提案する。
インバージョンフリー編集では、VAGSはソース誘導速度と目標誘導速度のアライメントを測定するため、各ステップでの編集強度は保存と変換の局所的な互換性を反映する。
VAGS-Genは、非条件速度と条件速度のアライメントをアナログ信号として使用する。
いずれの変種も微調整、補助ネットワーク、または追加のフォワードパスは必要とせず、固定CFGは特別なケースとして回収される。
編集用PIE-BenchとDIV2K、生成用COCO17、CUB-200、Flickr30Kでは、VAGSは固定CFGと最近のトレーニング不要ガイダンスの変種に対して、構造的忠実性と生成品質を一貫して改善している。
コードはhttps://github.com/Harvard-AI-and-Robotics-Lab/Velocity_Adaptive_Guidance_Scaleで公開されている。
関連論文リスト
- AHPA: Adaptive Hierarchical Prior Alignment for Diffusion Transformers [24.937985157569823]
我々は,信号と雑音の比に応じて,表現監督の有用な粒度が体系的に変化するため,このような時間ステップに依存しないアライメントが最適であると主張する。
ハイノイズでは拡散モデルはより粗い意味とレイアウトレベルのアンカーの恩恵を受けるが、低ノイズでは、トレーニング信号は空間的詳細で構造的に忠実な洗練を強調するべきである。
この非定常アライメント動作は、静的なシングルレベルスーパーバイザーに対する表現ミスマッチを生成する。
論文 参考訳(メタデータ) (2026-05-05T03:07:29Z) - Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control [33.03635235189535]
動作合成を反復的最適化に変換する時間非条件フレームワークGeCOについて紹介する。
テスト時間推論は、単純な状態に対して収束開始早期に基づいて計算を割り当てる適応的なプロセスとなり、難しい状態に対してはより長く精製する。
我々は,GeCOを標準シミュレーションベンチマークで検証し,pi0シリーズのVision-Language-Action(VLA)モデルにシームレスなスケーリングを示す。
論文 参考訳(メタデータ) (2026-03-18T15:27:17Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Generalized Radius and Integrated Codebook Transforms for Differentiable Vector Quantization [11.898954874548073]
我々は、VQを完全に差別化しつつ、前方パスにハードアサインを保持する統一的なサロゲートフレームワークを導入する。
GRIT-VQは、既存のVQの変種と比較して、復元誤差、生成品質、精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-01T10:22:35Z) - Inverse-Free Wilson Loops for Transformers: A Practical Diagnostic for Invariance and Order Sensitivity [0.0]
WILSONは単純なループと内部表現のチェックをシステム信号に変換する。
WILSONは、簡単なループを変換し、内部表現のチェックをシステム信号に変換する、最小限のポストホック診断スイートである。
論文 参考訳(メタデータ) (2025-10-09T06:41:18Z) - Rectified-CFG++ for Flow Based Models [26.896426878221718]
本稿では,修正フローの決定論的効率を幾何学的条件付きルールと組み合わせた適応型予測器・補正器ガイダンスであるRectified-C++を提案する。
大規模なテキスト・ツー・イメージモデル(Flux, Stable Diffusion 3/3.5, Lumina)の実験では、Rectified-C++がベンチマークデータセットの標準CFGを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-10-09T00:00:47Z) - Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval [48.85977777168096]
Gap-Aware Retrievalフレームワークは、テキスト$t_i$とビデオ$v_j$の間で、学習可能なペア固有のインクリメント$Delta_ij$を導入している。
セマンティックギャップに条件付けされた軽量なニューラルモジュールは、構造認識の修正のためにバッチ間で増分する。
4つのベンチマークの実験は、GAREが一貫してアライメント精度とロバスト性を改善することを示した。
論文 参考訳(メタデータ) (2025-05-18T17:18:06Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。