論文の概要: Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation
- arxiv url: http://arxiv.org/abs/2503.23234v1
- Date: Sat, 29 Mar 2025 22:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.002741
- Title: Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation
- Title(参考訳): Z-SASLM:ゼロショットスタイルのSLI曲げ遅れ操作
- Authors: Alessio Borgi, Luca Maiano, Irene Amerini,
- Abstract要約: 本稿では,現行のマルチスタイルブレンディング手法の限界を克服するパイプラインであるZ-SASLMを紹介する。
Z-SASLMは潜在空間の内在構造を保ち、多種多様なスタイルの高忠実でコヒーレントな混合を保証する。
そこで本研究では,ブレンドスタイルの一貫性を定量的に評価する指標として,重み付きマルチスタイルDINO ViT-B/8を提案する。
- 参考スコア(独自算出の注目度): 2.4851820343103035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Z-SASLM, a Zero-Shot Style-Aligned SLI (Spherical Linear Interpolation) Blending Latent Manipulation pipeline that overcomes the limitations of current multi-style blending methods. Conventional approaches rely on linear blending, assuming a flat latent space leading to suboptimal results when integrating multiple reference styles. In contrast, our framework leverages the non-linear geometry of the latent space by using SLI Blending to combine weighted style representations. By interpolating along the geodesic on the hypersphere, Z-SASLM preserves the intrinsic structure of the latent space, ensuring high-fidelity and coherent blending of diverse styles - all without the need for fine-tuning. We further propose a new metric, Weighted Multi-Style DINO ViT-B/8, designed to quantitatively evaluate the consistency of the blended styles. While our primary focus is on the theoretical and practical advantages of SLI Blending for style manipulation, we also demonstrate its effectiveness in a multi-modal content fusion setting through comprehensive experimental studies. Experimental results show that Z-SASLM achieves enhanced and robust style alignment. The implementation code can be found at: https://github.com/alessioborgi/Z-SASLM.
- Abstract(参考訳): 我々はZ-SASLM(Zero-Shot Style-Aligned SLI (Spherical Linear Interpolation) Blending Latent Manipulation Pipeline)を導入する。
従来のアプローチは線形ブレンディングに依存しており、複数の参照スタイルを統合する際に最適以下の結果をもたらす平坦な潜在空間を仮定する。
対照的に、我々のフレームワークはSLIブレンディングを用いて重み付けされたスタイル表現を組み合わせることで、潜在空間の非線形幾何を利用する。
超球面上の測地線に沿って補間することにより、Z-SASLMは潜伏空間の内在構造を保ち、様々なスタイルの高忠実でコヒーレントなブレンドを保証する。
さらに,ブレンドスタイルの一貫性を定量的に評価する指標として,重み付きマルチスタイルDINO ViT-B/8を提案する。
我々の主な焦点はスタイル操作におけるSLIブレンドの理論的・実践的な優位性であるが、総合的な実験を通して多モードのコンテンツ融合環境での有効性を実証することである。
実験の結果,Z-SASLMは高機能で頑健なスタイルアライメントを実現することがわかった。
実装コードは、https://github.com/alessioborgi/Z-SASLMで確認できる。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - How to Steer LLM Latents for Hallucination Detection? [29.967245405976072]
本稿では、推論中に表現空間を再評価し、真理と幻覚の出力を分離するステアリングベクトルを提案する。
我々の2段階のフレームワークは、まず、ラベル付き例題の小さなセットでSVを訓練し、コンパクトで分離されたクラスタを形成します。
その後、ラベルなしのLLM世代で模範集合を拡張し、疑似ラベル付けに最適なトランスポートベースのアルゴリズムと信頼に基づくフィルタリングプロセスを組み合わせた。
論文 参考訳(メタデータ) (2025-03-01T19:19:34Z) - Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models [21.16132396642158]
訓練安定性は、大規模言語モデル(LLM)の事前学習における永続的な課題である
完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
論文 参考訳(メタデータ) (2025-02-21T14:49:34Z) - SLAIM: Robust Dense Neural SLAM for Online Tracking and Mapping [15.63276368052395]
ニューラルラジアンスフィールドSLAM(NeRF-SLAM)に適した,新しい粗い粒度追跡モデルを提案する。
既存の NeRF-SLAM システムは、従来の SLAM アルゴリズムに比べて、追跡性能が劣っている。
局所バンドル調整とグローバルバンドル調整の両方を実装し、ロバストな(粗大な)(KL正規化器)と正確な(KL正規化器)SLAMソリューションを生成する。
論文 参考訳(メタデータ) (2024-04-17T14:23:28Z) - AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:08:47Z) - ParsNets: A Parsimonious Orthogonal and Low-Rank Linear Networks for
Zero-Shot Learning [22.823915322924304]
本稿では,ParsNetsと呼ばれるゼロショット学習(ZSL)において,既存の深層モデルに対して同等あるいはさらに優れた性能を実現するために,並列かつ効率的な設計手法を提案する。
局所線型性の一般化を容易にするため,クラス内サンプルに低ランク制約を課し,クラス間サンプルに高ランク制約を課すことにより,学習特徴量に対する最大マージン幾何学を構築した。
ZSLにおけるモデルの適応性と相反するオーバー/アンダーフィッティングを強化するために、サンプルワイドインジケータのセットを使用して、これらのベース線形ネットワークからスパースサブセットを選択して複合を形成する。
論文 参考訳(メタデータ) (2023-12-15T11:32:11Z) - SIGMA: Scale-Invariant Global Sparse Shape Matching [50.385414715675076]
非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。
いくつかの挑戦的な3Dデータセットに対して,スパースな非剛性マッチングの最先端結果を示す。
論文 参考訳(メタデータ) (2023-08-16T14:25:30Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Boosting Discriminative Visual Representation Learning with
Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。
具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。
非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-30T14:49:59Z) - SemiNLL: A Framework of Noisy-Label Learning by Semi-Supervised Learning [58.26384597768118]
SemiNLLはSS戦略とSSLモデルをエンドツーエンドで組み合わせた汎用フレームワークである。
我々のフレームワークは、様々なSS戦略やSSLバックボーンを吸収し、そのパワーを利用して有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-12-02T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。