論文の概要: TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets
- arxiv url: http://arxiv.org/abs/2603.27520v1
- Date: Sun, 29 Mar 2026 05:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.000005
- Title: TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets
- Title(参考訳): TokenDial: 時空間Tokenオフセットによるテキスト対ビデオの連続属性制御
- Authors: Zhixuan Liu, Peter Schaldenbrand, Yijun Li, Long Mai, Aniruddha Mahapatra, Cusuh Ham, Jean Oh, Jui-Hsien Wang,
- Abstract要約: TokenDialは、事前訓練されたテキスト-ビデオ生成モデルにおける連続的なスライダスタイルの属性制御のためのフレームワークである。
我々は、事前学習された理解信号を用いて、バックボーンをトレーニングすることなく属性固有のトークンオフセットを学習する。
TokenDialsの有効性を様々な属性やプロンプトで実証し、最先端のベースラインよりも強力な制御性と高品質な編集を実現する。
- 参考スコア(独自算出の注目度): 26.16152568319517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.
- Abstract(参考訳): TokenDialは、事前訓練されたテキスト・ビデオ生成モデルにおける連続的なスライダスタイルの属性制御のためのフレームワークである。
現代のジェネレータは強力な全体論的ビデオを生成するが、ドリフトアイデンティティや背景、時間的コヒーレンスを伴わずに、属性がどれだけ変化するか(例えば、効果強度や動きの大きさ)を限定的に制御できる。
中間時空間の付加的なオフセットは意味制御方向に形成され、オフセットの大きさの調整は外観と運動力学の両方のコヒーレントで予測可能な編集をもたらす。
属性固有のトークンオフセットを、事前訓練された理解信号を用いて、バックボーンをトレーニングすることなく学習する。
多様な属性やプロンプトに対するTokenDialの有効性を実証し、最先端のベースラインよりも強力な制御性と高品質な編集を実現し、広範囲な定量的評価と人的研究に支えられている。
関連論文リスト
- Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - FineXtrol: Controllable Motion Generation via Fine-Grained Text [46.315592728110346]
FineXtrolは、時間的に認識され、正確で、ユーザフレンドリで、きめ細かいテキスト制御信号によってガイドされる、効率的なモーション生成のための新しいフレームワークである。
制御可能なモーション生成においてFineXtrolは高い性能を示す。
論文 参考訳(メタデータ) (2025-11-24T09:32:26Z) - TempoControl: Temporal Attention Guidance for Text-to-Video Models [18.49685485536669]
本研究では,推論中の視覚概念の時間的アライメントを可能にするTempoControlを紹介する。
本手法は,時間的形状と制御信号との整合性,可視性が必要な場所での増幅,空間的焦点の維持という3つの相補的原理を用いて注意を喚起する。
単一オブジェクトと複数オブジェクトの時間的並べ替え、アクションおよびオーディオアライメント生成など、様々なビデオ生成アプリケーションにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2025-10-02T17:13:35Z) - From Prompt to Progression: Taming Video Diffusion Models for Seamless Attribute Transition [57.809291244375345]
本研究では,スムーズかつ一貫した属性遷移に対する既存モデルの拡張をシンプルかつ効果的に行う手法を提案する。
提案手法は,初期属性フレームから最終属性フレームへの段階的なシフトをフレーム単位に導くことで,各雑音の遅延に対してデータ固有の遷移方向を構築する。
また、属性と動きのダイナミクスを統合した制御属性遷移ベンチマーク(CAT-Bench)を提案する。
論文 参考訳(メタデータ) (2025-09-24T01:58:22Z) - AttriCtrl: Fine-Grained Control of Aesthetic Attribute Intensity in Diffusion Models [32.46570968627392]
AttriCtrlは、美的属性の正確かつ継続的な制御のためのプラグイン・アンド・プレイフレームワークである。
我々は,事前学習された視覚言語モデルから意味的類似性を活用することで,抽象美学を定量化する。
一般的なオープンソースのコントロール可能な生成フレームワークと完全に互換性がある。
論文 参考訳(メタデータ) (2025-08-04T07:49:40Z) - FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios [49.09128364751743]
アクションカスタマイズでは、被験者が入力制御信号によって指示されたアクションを実行するビデオを生成する。
現在の手法では、ポーズ誘導やグローバルな動きのカスタマイズが使われているが、空間構造に対する厳密な制約によって制限されている。
本稿では、参照ビデオから任意のターゲット画像へアクションを転送するFlexiActを提案する。
論文 参考訳(メタデータ) (2025-05-06T17:58:02Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [24.964136963713102]
単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。
具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。
大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-09T16:27:02Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。