論文の概要: Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation
- arxiv url: http://arxiv.org/abs/2503.23234v1
- Date: Sat, 29 Mar 2025 22:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:54.719975
- Title: Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation
- Title(参考訳): Z-SASLM:ゼロショットスタイルのSLI曲げ遅れ操作
- Authors: Alessio Borgi, Luca Maiano, Irene Amerini,
- Abstract要約: 本稿では,現行のマルチスタイルブレンディング手法の限界を克服するパイプラインであるZ-SASLMを紹介する。
Z-SASLMは潜在空間の内在構造を保ち、多種多様なスタイルの高忠実でコヒーレントな混合を保証する。
そこで本研究では,ブレンドスタイルの一貫性を定量的に評価する指標として,重み付きマルチスタイルDINO ViT-B/8を提案する。
- 参考スコア(独自算出の注目度): 2.4851820343103035
- License:
- Abstract: We introduce Z-SASLM, a Zero-Shot Style-Aligned SLI (Spherical Linear Interpolation) Blending Latent Manipulation pipeline that overcomes the limitations of current multi-style blending methods. Conventional approaches rely on linear blending, assuming a flat latent space leading to suboptimal results when integrating multiple reference styles. In contrast, our framework leverages the non-linear geometry of the latent space by using SLI Blending to combine weighted style representations. By interpolating along the geodesic on the hypersphere, Z-SASLM preserves the intrinsic structure of the latent space, ensuring high-fidelity and coherent blending of diverse styles - all without the need for fine-tuning. We further propose a new metric, Weighted Multi-Style DINO ViT-B/8, designed to quantitatively evaluate the consistency of the blended styles. While our primary focus is on the theoretical and practical advantages of SLI Blending for style manipulation, we also demonstrate its effectiveness in a multi-modal content fusion setting through comprehensive experimental studies. Experimental results show that Z-SASLM achieves enhanced and robust style alignment. The implementation code can be found at: https://github.com/alessioborgi/Z-SASLM.
- Abstract(参考訳): 我々はZ-SASLM(Zero-Shot Style-Aligned SLI (Spherical Linear Interpolation) Blending Latent Manipulation Pipeline)を導入する。
従来のアプローチは線形ブレンディングに依存しており、複数の参照スタイルを統合する際に最適以下の結果をもたらす平坦な潜在空間を仮定する。
対照的に、我々のフレームワークはSLIブレンディングを用いて重み付けされたスタイル表現を組み合わせることで、潜在空間の非線形幾何を利用する。
超球面上の測地線に沿って補間することにより、Z-SASLMは潜伏空間の内在構造を保ち、様々なスタイルの高忠実でコヒーレントなブレンドを保証する。
さらに,ブレンドスタイルの一貫性を定量的に評価する指標として,重み付きマルチスタイルDINO ViT-B/8を提案する。
我々の主な焦点はスタイル操作におけるSLIブレンドの理論的・実践的な優位性であるが、総合的な実験を通して多モードのコンテンツ融合環境での有効性を実証することである。
実験の結果,Z-SASLMは高機能で頑健なスタイルアライメントを実現することがわかった。
実装コードは、https://github.com/alessioborgi/Z-SASLMで確認できる。
関連論文リスト
- SLAIM: Robust Dense Neural SLAM for Online Tracking and Mapping [15.63276368052395]
ニューラルラジアンスフィールドSLAM(NeRF-SLAM)に適した,新しい粗い粒度追跡モデルを提案する。
既存の NeRF-SLAM システムは、従来の SLAM アルゴリズムに比べて、追跡性能が劣っている。
局所バンドル調整とグローバルバンドル調整の両方を実装し、ロバストな(粗大な)(KL正規化器)と正確な(KL正規化器)SLAMソリューションを生成する。
論文 参考訳(メタデータ) (2024-04-17T14:23:28Z) - PSS-BA: LiDAR Bundle Adjustment with Progressive Spatial Smoothing [27.060381833488172]
本稿では, プログレッシブ空間平滑化によるLiDARバンドル調整について述べる。
提案手法の有効性とロバスト性をシミュレーションと実世界のデータセットで検証した。
論文 参考訳(メタデータ) (2024-03-10T07:56:54Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - ParsNets: A Parsimonious Orthogonal and Low-Rank Linear Networks for
Zero-Shot Learning [22.823915322924304]
本稿では,ParsNetsと呼ばれるゼロショット学習(ZSL)において,既存の深層モデルに対して同等あるいはさらに優れた性能を実現するために,並列かつ効率的な設計手法を提案する。
局所線型性の一般化を容易にするため,クラス内サンプルに低ランク制約を課し,クラス間サンプルに高ランク制約を課すことにより,学習特徴量に対する最大マージン幾何学を構築した。
ZSLにおけるモデルの適応性と相反するオーバー/アンダーフィッティングを強化するために、サンプルワイドインジケータのセットを使用して、これらのベース線形ネットワークからスパースサブセットを選択して複合を形成する。
論文 参考訳(メタデータ) (2023-12-15T11:32:11Z) - SIGMA: Scale-Invariant Global Sparse Shape Matching [50.385414715675076]
非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。
いくつかの挑戦的な3Dデータセットに対して,スパースな非剛性マッチングの最先端結果を示す。
論文 参考訳(メタデータ) (2023-08-16T14:25:30Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Boosting Discriminative Visual Representation Learning with
Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。
具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。
非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-30T14:49:59Z) - SemiNLL: A Framework of Noisy-Label Learning by Semi-Supervised Learning [58.26384597768118]
SemiNLLはSS戦略とSSLモデルをエンドツーエンドで組み合わせた汎用フレームワークである。
我々のフレームワークは、様々なSS戦略やSSLバックボーンを吸収し、そのパワーを利用して有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-12-02T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。