論文の概要: Hystar: Hypernetwork-driven Style-adaptive Retrieval via Dynamic SVD Modulation
- arxiv url: http://arxiv.org/abs/2605.10009v1
- Date: Mon, 11 May 2026 05:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.548757
- Title: Hystar: Hypernetwork-driven Style-adaptive Retrieval via Dynamic SVD Modulation
- Title(参考訳): Hystar: 動的SVD変調によるハイパーネットワーク駆動型スタイル適応検索
- Authors: Yujia Cai, Boxuan Li, Chenghao Xu, Jiexi Yan,
- Abstract要約: CLIPのようなスタイル適応表現モデル(VLRM)は、目に見えないクエリスタイルによる分散シフトに苦労する。
本稿では,各クエリのスタイルにモデル重みを動的に適応させる軽量フレームワークであるHypernetwork-driven Style-NCE Retrieval(Hystar)を提案する。
Hystarは強いベースラインを一貫して上回り、パラメータ効率が高く、スタイルをまたいで安定して、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.398950186179032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-based image retrieval (QBIR) requires retrieving relevant images given diverse and often stylistically heterogeneous queries, such as sketches, artworks, or low-resolution previews. While large-scale vision--language representation models (VLRMs) like CLIP offer strong zero-shot retrieval performance, they struggle with distribution shifts caused by unseen query styles. In this paper, we propose the Hypernetwork-driven Style-adaptive Retrieval (Hystar), a lightweight framework that dynamically adapts model weights to each query's style. Hystar employs a hypernetwork to generate singular-value perturbations ($ΔS$) for attention layers, enabling flexible per-input adaptation, while static singular-value offsets on MLP layers ensure cross-style stability. To better handle semantic confusions across styles, we design StyleNCE as part of Hystar, an optimal-transport-weighted contrastive loss that emphasizes hard cross-style negatives. Extensive experiments on multi-style retrieval and cross-style classification benchmarks demonstrate that Hystar consistently outperforms strong baselines, achieving state-of-the-art performance while being parameter-efficient and stable across styles.
- Abstract(参考訳): クエリベースの画像検索(QBIR)では,スケッチやアートワーク,低解像度プレビューなど,多種多様かつ多種多様なクエリを検索する必要がある。
CLIPのような大規模視覚言語表現モデル(VLRM)は、ゼロショット検索性能が優れているが、目に見えないクエリスタイルによる分散シフトに苦慮している。
本稿では,各クエリのスタイルにモデル重みを動的に適応させる軽量フレームワークであるHypernetwork-Driven Style-Adaptive Retrieval (Hystar)を提案する。
ハイスターはアテンション層に対して特異値摂動(ΔS$)を生成するためにハイパーネットワークを使用し、フレキシブルなインプット毎の適応を可能にし、一方、MLP層上の静的特異値オフセットはクロススタイルの安定性を保証する。
スタイル間のセマンティックな混乱をよりよく扱うために、我々は、ハードクロススタイルの否定を強調する最適なトランスポート重み付きコントラスト付き損失であるHystarの一部としてStyleNCEを設計する。
マルチスタイル検索とクロススタイル分類ベンチマークの大規模な実験により、Hystarは強いベースラインを一貫して上回り、パラメータ効率が高く安定したスタイルで最先端のパフォーマンスを実現している。
関連論文リスト
- StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling [0.0]
学習された潜在空間における条件付き離散シーケンスモデルとしてスタイル転送を定式化する。
我々は、進化する対象表現が自身の歴史に沿うような混在したクロスアテンション機構を導入する。
Style VARは、Style Loss、Content Loss、LPIPS、SSIM、DreamSim、CLIPの類似性において一貫してAdaINベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-22T19:52:35Z) - HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models [23.070399327132737]
本稿では,効率的なテスト時間アライメントのためにハイパーネットワークをトレーニングする新しいフレームワークを提案する。
潜在状態を変更する代わりに、HyperAlignは拡散モデルの生成演算子を変調するために、動的に低ランク適応重みを生成する。
セマンティック一貫性と視覚的魅力を高めるために、既存の微調整とテストタイムのスケーリングベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-01-22T13:49:47Z) - AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling [23.81351558826977]
AdaJudgeは、表現とアグリゲーションを共同で適応する統合フレームワークである。
AdaJudgeはまず、リファインメントブロックを通じて、バックボーン表現を差別指向の空間に洗練する。
その後、静的読み込みを動的にルーティングし、エビデンスを組み合わせた適応的なマルチビュープーリングモジュールに置き換える。
論文 参考訳(メタデータ) (2026-01-13T00:37:38Z) - Training-Free Multi-Style Fusion Through Reference-Based Adaptive Modulation [10.053310365345412]
Adaptive Multi-Style Fusion (AMSF) は、拡散モデルにおける複数の参照スタイルの制御可能な融合を可能にするトレーニングフリーフレームワークである。
AMSFは、最先端のアプローチを一貫して上回るマルチスタイルの融合結果を生成する。
これらの能力は、AMSFを拡散モデルにおける表現力のあるマルチスタイル生成への実践的なステップと位置づけている。
論文 参考訳(メタデータ) (2025-09-23T03:47:59Z) - StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture [29.178246094092202]
スタイル転送は、スタイルソースの芸術的表現ではなく、コンテンツを保存する新しいイメージを生成することを目的としている。
既存の手法の多くはトランスフォーマーや拡散モデルに基づいているが、2次計算の複雑さと高い推論時間に悩まされている。
本稿では,メモリ使用量と線形時間複雑性を制限した高品質なスタイル転送を実現するための新しいフレームワークであるStyleRWKVを提案する。
論文 参考訳(メタデータ) (2024-12-27T09:01:15Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。