論文の概要: FreeSliders: Training-Free, Modality-Agnostic Concept Sliders for Fine-Grained Diffusion Control in Images, Audio, and Video
- arxiv url: http://arxiv.org/abs/2511.00103v1
- Date: Thu, 30 Oct 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.596478
- Title: FreeSliders: Training-Free, Modality-Agnostic Concept Sliders for Fine-Grained Diffusion Control in Images, Audio, and Video
- Title(参考訳): FreeSliders: 画像、オーディオ、ビデオの微粒化拡散制御のためのトレーニング不要、モダリティに依存しないコンセプトスライダ
- Authors: Rotem Ezra, Hedi Zisling, Nimrod Berman, Ilan Naiman, Alexey Gorkor, Liran Nochumsohn, Eliya Nachmani, Omri Azencot,
- Abstract要約: 概念スライダは、テキストコントラストを通して意味的な方向を発見することによって、有望な方向を提供する。
FreeSlidersは、推論中にCSの公式を部分的に見積もることで、完全にトレーニング不要でモダリティに依存しない。
提案手法は,モダリティ間のプラグアンドプレイ,トレーニング不要の概念制御,既存のベースラインの改善,原則生成のための新しいツールの確立を可能にする。
- 参考スコア(独自算出の注目度): 19.20143810117644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have become state-of-the-art generative models for images, audio, and video, yet enabling fine-grained controllable generation, i.e., continuously steering specific concepts without disturbing unrelated content, remains challenging. Concept Sliders (CS) offer a promising direction by discovering semantic directions through textual contrasts, but they require per-concept training and architecture-specific fine-tuning (e.g., LoRA), limiting scalability to new modalities. In this work we introduce FreeSliders, a simple yet effective approach that is fully training-free and modality-agnostic, achieved by partially estimating the CS formula during inference. To support modality-agnostic evaluation, we extend the CS benchmark to include both video and audio, establishing the first suite for fine-grained concept generation control with multiple modalities. We further propose three evaluation properties along with new metrics to improve evaluation quality. Finally, we identify an open problem of scale selection and non-linear traversals and introduce a two-stage procedure that automatically detects saturation points and reparameterizes traversal for perceptually uniform, semantically meaningful edits. Extensive experiments demonstrate that our method enables plug-and-play, training-free concept control across modalities, improves over existing baselines, and establishes new tools for principled controllable generation. An interactive presentation of our benchmark and method is available at: https://azencot-group.github.io/FreeSliders/
- Abstract(参考訳): 拡散モデルは、画像、オーディオ、ビデオの最先端の生成モデルとなりつつも、きめ細かい制御可能な生成を可能にする。
概念スライダ(CS)は、テキストコントラストを通じて意味的な方向を見つけることによって、有望な方向を提供するが、概念ごとのトレーニングとアーキテクチャ固有の微調整(LoRAなど)を必要とし、スケーラビリティを新しいモダリティに制限する。
本研究では,CS式を部分的に推定することで,学習自由かつモダリティに依存しない簡易かつ効果的な手法であるFreeSlidersを導入する。
モダリティに依存しない評価をサポートするため、CSベンチマークを拡張してビデオとオーディオの両方を含むようにし、複数のモダリティを持つ微細な概念生成制御のための最初のスイートを確立する。
さらに,評価品質を向上させるために,新しい指標とともに3つの評価特性を提案する。
最後に、スケール選択と非線形トラバーサルのオープンな問題を特定し、飽和点を自動的に検出し、知覚的に一様で意味のある編集のためにトラバーサルを再パラメータ化する2段階の手順を導入する。
広汎な実験により,本手法はモダリティ間のプラグアンドプレイ,トレーニング不要の概念制御を可能にし,既存のベースラインを改良し,原理化された制御可能生成のための新しいツールを確立する。
ベンチマークとメソッドのインタラクティブなプレゼンテーションは、https://azencot-group.github.io/FreeSliders/で公開されている。
関連論文リスト
- TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning [35.14123452166428]
合成ゼロショット学習は,目に見えるものから学習した知識に基づいて,新しい属性オブジェクトの合成を認識することを目的としている。
既存の手法は,テスト時のラベル空間の分布変化による性能劣化に悩まされる。
本稿では,テスト時に多モードプロトタイプを更新するために,テキストと視覚の両方で包括的知識を蓄積する手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T03:20:29Z) - Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA [84.89284738178932]
テキスト・ビデオ・モデルにおける動的概念のパーソナライズのためのゼロショットフレームワークを提案する。
提案手法は,空間的に入力と出力のペアを整理する構造化2x2ビデオグリッドを利用する。
専用のグリッドフィルモジュールが部分的に観測されたレイアウトを完了し、時間的に一貫性とアイデンティティを保った出力を生成する。
論文 参考訳(メタデータ) (2025-07-23T22:09:38Z) - Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter [57.49476151976054]
テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。
本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-24T09:21:32Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models [52.894213114914805]
拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
スライダは、プロンプトやサンプル画像の小さなセットを使用して作成される。
本手法は、物体の変形の修復や変形した手の固定など、安定XL拡散における持続的品質問題に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-11-20T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。