論文の概要: Training Free Stylized Abstraction
- arxiv url: http://arxiv.org/abs/2505.22663v1
- Date: Wed, 28 May 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.799552
- Title: Training Free Stylized Abstraction
- Title(参考訳): 遊離スティル化抽象化の訓練
- Authors: Aimon Rahman, Kartik Narayan, Vishal M. Patel,
- Abstract要約: スティル化抽象化は、視覚的に誇張されているが意味的に忠実な対象表現を合成し、認識可能性と知覚歪みのバランスをとる。
視覚言語モデル(VLLM)における推論時間スケーリングを用いて,単一の画像からスタイル化された抽象化を生成する学習自由フレームワークを提案する。
提案手法は,時間的時間的スケジューリングによって動的に構造復元を適応し,主観とスタイルの両方を尊重する高忠実度復元を可能にする。
- 参考スコア(独自算出の注目度): 27.307331773270676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stylized abstraction synthesizes visually exaggerated yet semantically faithful representations of subjects, balancing recognizability with perceptual distortion. Unlike image-to-image translation, which prioritizes structural fidelity, stylized abstraction demands selective retention of identity cues while embracing stylistic divergence, especially challenging for out-of-distribution individuals. We propose a training-free framework that generates stylized abstractions from a single image using inference-time scaling in vision-language models (VLLMs) to extract identity-relevant features, and a novel cross-domain rectified flow inversion strategy that reconstructs structure based on style-dependent priors. Our method adapts structural restoration dynamically through style-aware temporal scheduling, enabling high-fidelity reconstructions that honor both subject and style. It supports multi-round abstraction-aware generation without fine-tuning. To evaluate this task, we introduce StyleBench, a GPT-based human-aligned metric suited for abstract styles where pixel-level similarity fails. Experiments across diverse abstraction (e.g., LEGO, knitted dolls, South Park) show strong generalization to unseen identities and styles in a fully open-source setup.
- Abstract(参考訳): スティル化抽象化は、視覚的に誇張されているが意味的に忠実な対象表現を合成し、認識可能性と知覚歪みのバランスをとる。
構造的忠実さを優先するイメージ・ツー・イメージの翻訳とは異なり、スタイル化された抽象化はアイデンティティの手がかりを選択的に保持することを要求する一方で、スタイル的なばらつきを抱きながら、特にアウト・オブ・ディストリビューションの個人にとって困難である。
本稿では、視覚言語モデル(VLLM)における推論時間スケーリングを用いて、単一画像からスタイル化された抽象化を生成して、識別関連特徴を抽出する学習自由フレームワークと、スタイル依存の前提に基づいて構造を再構築する新しいクロスドメイン整流反転戦略を提案する。
提案手法は,時間的時間的スケジューリングによって動的に構造復元を適応し,主観とスタイルの両方を尊重する高忠実度復元を可能にする。
微調整なしでマルチラウンドの抽象化・アウェア生成をサポートする。
この課題を評価するために,画素レベルの類似性に欠ける抽象的なスタイルに適したGPTベースのヒューマンアライメントメトリックであるStyleBenchを紹介する。
さまざまな抽象概念(LEGO、編み物人形、サウスパークなど)にわたる実験は、完全にオープンソースな設定で、目に見えないアイデンティティやスタイルに強力な一般化を示している。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - How to Handle Sketch-Abstraction in Sketch-Based Image Retrieval? [120.49126407479717]
スケッチの抽象化を様々なレベルで処理できるスケッチベース画像検索フレームワークを提案する。
粒度レベルの抽象理解のために、検索モデルはすべての抽象レベルを等しく扱ってはならないと規定する。
私たちのAcc.@qの損失は、評価がいかに厳格であるかという点で、スケッチが焦点を絞りたり壊したりできます。
論文 参考訳(メタデータ) (2024-03-11T23:08:29Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。