Fugu-MT 論文翻訳(概要): Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation

論文の概要: Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation

arxiv url: http://arxiv.org/abs/2503.23234v1
Date: Sat, 29 Mar 2025 22:05:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.002741
Title: Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation
Title（参考訳）: Z-SASLM:ゼロショットスタイルのSLI曲げ遅れ操作
Authors: Alessio Borgi, Luca Maiano, Irene Amerini,
Abstract要約: 本稿では,現行のマルチスタイルブレンディング手法の限界を克服するパイプラインであるZ-SASLMを紹介する。 Z-SASLMは潜在空間の内在構造を保ち、多種多様なスタイルの高忠実でコヒーレントな混合を保証する。そこで本研究では,ブレンドスタイルの一貫性を定量的に評価する指標として,重み付きマルチスタイルDINO ViT-B/8を提案する。
参考スコア（独自算出の注目度）: 2.4851820343103035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Z-SASLM, a Zero-Shot Style-Aligned SLI (Spherical Linear Interpolation) Blending Latent Manipulation pipeline that overcomes the limitations of current multi-style blending methods. Conventional approaches rely on linear blending, assuming a flat latent space leading to suboptimal results when integrating multiple reference styles. In contrast, our framework leverages the non-linear geometry of the latent space by using SLI Blending to combine weighted style representations. By interpolating along the geodesic on the hypersphere, Z-SASLM preserves the intrinsic structure of the latent space, ensuring high-fidelity and coherent blending of diverse styles - all without the need for fine-tuning. We further propose a new metric, Weighted Multi-Style DINO ViT-B/8, designed to quantitatively evaluate the consistency of the blended styles. While our primary focus is on the theoretical and practical advantages of SLI Blending for style manipulation, we also demonstrate its effectiveness in a multi-modal content fusion setting through comprehensive experimental studies. Experimental results show that Z-SASLM achieves enhanced and robust style alignment. The implementation code can be found at: https://github.com/alessioborgi/Z-SASLM.
Abstract（参考訳）: 我々はZ-SASLM(Zero-Shot Style-Aligned SLI (Spherical Linear Interpolation) Blending Latent Manipulation Pipeline)を導入する。従来のアプローチは線形ブレンディングに依存しており、複数の参照スタイルを統合する際に最適以下の結果をもたらす平坦な潜在空間を仮定する。対照的に、我々のフレームワークはSLIブレンディングを用いて重み付けされたスタイル表現を組み合わせることで、潜在空間の非線形幾何を利用する。超球面上の測地線に沿って補間することにより、Z-SASLMは潜伏空間の内在構造を保ち、様々なスタイルの高忠実でコヒーレントなブレンドを保証する。さらに,ブレンドスタイルの一貫性を定量的に評価する指標として,重み付きマルチスタイルDINO ViT-B/8を提案する。我々の主な焦点はスタイル操作におけるSLIブレンドの理論的・実践的な優位性であるが、総合的な実験を通して多モードのコンテンツ融合環境での有効性を実証することである。実験の結果,Z-SASLMは高機能で頑健なスタイルアライメントを実現することがわかった。実装コードは、https://github.com/alessioborgi/Z-SASLMで確認できる。

関連論文リスト

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction [35.30036388020098]
本稿では,GloSplatについて述べる。GloSplatは3次元ガウス平滑化訓練において,アンフィジョイントなポーズ-外観最適化を行うフレームワークである。従来の共同最適化手法とは異なり、GloSplatは訓練中、Emphexplicit SfM機能トラックを第一級エンティティとして保存する。実験により、GloSplat-FはCOLMAPフリーメソッドの最先端を実現し、GloSplat-AはCOLMAPベースラインをすべて越えていることが示された。
論文参考訳（メタデータ） (2026-03-05T06:02:50Z)
SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention [50.99430451151184]
線形注意はコストをO(N)に還元するが、圧縮された状態表現はモデリング能力と精度を損なう。本稿では,視覚表現学習における線形およびソフトマックスの注意を対比する分析的研究について述べる。フレキシブルな層状ハイブリッドアテンションバックボーンであるSoLA-Visionを提案する。
論文参考訳（メタデータ） (2026-01-16T10:26:53Z)
SVRecon: Sparse Voxel Rasterization for Surface Reconstruction [60.92372415355283]
我々は最近提案されたスパースボキセル化パラダイムをSVReconの統合により高忠実度表面再構成の課題に拡張する。本手法は, 常に高速な収束を保ちながら, 強い復元精度を実現する。
論文参考訳（メタデータ） (2025-11-21T16:32:01Z)
OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-23T13:57:55Z)
Training-Free Multi-Style Fusion Through Reference-Based Adaptive Modulation [10.053310365345412]
Adaptive Multi-Style Fusion (AMSF) は、拡散モデルにおける複数の参照スタイルの制御可能な融合を可能にするトレーニングフリーフレームワークである。 AMSFは、最先端のアプローチを一貫して上回るマルチスタイルの融合結果を生成する。これらの能力は、AMSFを拡散モデルにおける表現力のあるマルチスタイル生成への実践的なステップと位置づけている。
論文参考訳（メタデータ） (2025-09-23T03:47:59Z)
GaussianPSL: A novel framework based on Gaussian Splatting for exploring the Pareto frontier in multi-criteria optimization [1.325953054381901]
本稿では,多目的最適化を用いた非目的多様性学習のための新しいアプローチを提案する。本手法は各領域の局所的特徴を統合し,新たなアグリゲータフレームワークによって統合する。実験の結果,本手法は非目的多様性学習において標準PSLモデルよりも優れていた。この作業は、挑戦的な現実世界のベンチマークの下で、効果的でスケーラブルな新たな方向性を提供する。
論文参考訳（メタデータ） (2025-09-22T15:21:22Z)
Exploring Non-Local Spatial-Angular Correlations with a Hybrid Mamba-Transformer Framework for Light Field Super-Resolution [68.54692184478462]
マンバ法は光画像超解像の計算コストと性能を最適化する大きな可能性を示している。本稿では,より効率的かつ正確な特徴抽出を実現するために,Subspace Simple Mamba Block (SSMB) を設計したSubspace Simple Scanning (Sub-SS) 戦略を提案する。また,空間角・異質情報の保存における状態空間の制限に対処する二段階モデリング手法を提案する。
論文参考訳（メタデータ） (2025-09-05T05:50:38Z)
SG-Blend: Learning an Interpolation Between Improved Swish and GELU for Robust Neural Representations [8.276787575807392]
本研究は,提案したSSwishと確立されたGELUをブレンドした新規活性化機能であるSG-Blendを紹介する。学習可能なパラメータによってこれらの成分関数を適応的にブレンドすることにより、SG-Blendは相補的な強みを活用することを目指している。
論文参考訳（メタデータ） (2025-05-29T18:48:18Z)
Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
Leveraging Spatial Context for Positive Pair Sampling in Histopathology Image Representation Learning [2.0451307225357427]
複数のインスタンス学習と自己教師型学習が、従来のアノテーションベースの手法に代わる有望な代替手段として登場した。本稿では,空間に隣接したパッチの形態的コヒーレンスを活用することでSSLを強化する空間文脈駆動型正対サンプリング戦略を提案する。本手法は,Barlow Twins,BYOL,VICReg,DINOv2など,既存のSSLフレームワークと互換性がある。
論文参考訳（メタデータ） (2025-03-07T06:31:19Z)
How to Steer LLM Latents for Hallucination Detection? [29.967245405976072]
本稿では、推論中に表現空間を再評価し、真理と幻覚の出力を分離するステアリングベクトルを提案する。我々の2段階のフレームワークは、まず、ラベル付き例題の小さなセットでSVを訓練し、コンパクトで分離されたクラスタを形成します。その後、ラベルなしのLLM世代で模範集合を拡張し、疑似ラベル付けに最適なトランスポートベースのアルゴリズムと信頼に基づくフィルタリングプロセスを組み合わせた。
論文参考訳（メタデータ） (2025-03-01T19:19:34Z)
Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models [21.16132396642158]
訓練安定性は、大規模言語モデル(LLM)の事前学習における永続的な課題である完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
論文参考訳（メタデータ） (2025-02-21T14:49:34Z)
SLAIM: Robust Dense Neural SLAM for Online Tracking and Mapping [15.63276368052395]
ニューラルラジアンスフィールドSLAM(NeRF-SLAM)に適した,新しい粗い粒度追跡モデルを提案する。既存の NeRF-SLAM システムは、従来の SLAM アルゴリズムに比べて、追跡性能が劣っている。局所バンドル調整とグローバルバンドル調整の両方を実装し、ロバストな(粗大な)(KL正規化器)と正確な(KL正規化器)SLAMソリューションを生成する。
論文参考訳（メタデータ） (2024-04-17T14:23:28Z)
AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint Synthesis [98.3959800235485]
近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
論文参考訳（メタデータ） (2024-02-27T13:08:47Z)
ParsNets: A Parsimonious Orthogonal and Low-Rank Linear Networks for Zero-Shot Learning [22.823915322924304]
本稿では,ParsNetsと呼ばれるゼロショット学習(ZSL)において,既存の深層モデルに対して同等あるいはさらに優れた性能を実現するために,並列かつ効率的な設計手法を提案する。局所線型性の一般化を容易にするため,クラス内サンプルに低ランク制約を課し,クラス間サンプルに高ランク制約を課すことにより,学習特徴量に対する最大マージン幾何学を構築した。 ZSLにおけるモデルの適応性と相反するオーバー/アンダーフィッティングを強化するために、サンプルワイドインジケータのセットを使用して、これらのベース線形ネットワークからスパースサブセットを選択して複合を形成する。
論文参考訳（メタデータ） (2023-12-15T11:32:11Z)
SIGMA: Scale-Invariant Global Sparse Shape Matching [50.385414715675076]
非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。いくつかの挑戦的な3Dデータセットに対して,スパースな非剛性マッチングの最先端結果を示す。
論文参考訳（メタデータ） (2023-08-16T14:25:30Z)
Style-Hallucinated Dual Consistency Learning for Domain Generalized Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。 SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-04-06T02:49:06Z)
Boosting Discriminative Visual Representation Learning with Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文参考訳（メタデータ） (2021-11-30T14:49:59Z)
SemiNLL: A Framework of Noisy-Label Learning by Semi-Supervised Learning [58.26384597768118]
SemiNLLはSS戦略とSSLモデルをエンドツーエンドで組み合わせた汎用フレームワークである。我々のフレームワークは、様々なSS戦略やSSLバックボーンを吸収し、そのパワーを利用して有望なパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-12-02T01:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。