論文の概要: Real-Time AttentionBender: Granular Interactive Network Bending of Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2606.06497v2
- Date: Mon, 08 Jun 2026 13:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.647923
- Title: Real-Time AttentionBender: Granular Interactive Network Bending of Video Diffusion Transformers
- Title(参考訳): リアルタイムアテンションベンダー:ビデオ拡散変換器のグラニュラー対話型ネットワーク
- Authors: Adam Cole, Rebecca Fiebrink, Mick Grierson,
- Abstract要約: Real-Time AttentionBenderは、ビデオ拡散変換器(DiT)の全深度にわたるネットワーク曲げのプラクティスを拡張するツールである。
セルフアテンション、クロスアテンション、フィードフォワードネットワークを独立して操作可能な表面として公開する。
ライブ操作の即時性は、我々がモデルに対して「物質的親密性」と呼ぶものを提供する。
- 参考スコア(独自算出の注目度): 2.0697105762666324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative video models have achieved remarkable visual fidelity, yet their prompt-only interface offers thin creative agency and obscures the model's material process from the artists working with it. We present Real-Time AttentionBender, a tool that extends the practice of network bending across the full depth of the video diffusion transformer (DiT) and brings it into live, interactive generation. Built as a plugin within the DayDream Scope ecosystem and wrapping open-source real-time Wan pipelines, the tool exposes self-attention, cross-attention, and the feed-forward network as independently manipulable surfaces, with targeting down to individual diffusion steps, DiT layers, prompt tokens, and hidden neurons. The immediacy of live manipulation affords what we call "material intimacy" with the model: a responsive, near-mechanistic feel for how specific layers and neurons shape generated video. We position the tool as simultaneously an XAIxArts probe into transformer internals and an expressive instrument for discovering aesthetics outside the model's default representational space.
- Abstract(参考訳): 生成的ビデオモデルは目覚ましい視覚的忠実さを達成しているが、そのプロンプトのみのインターフェースは薄い創造的エージェンシーを提供し、それを扱うアーティストからモデルの物質過程を隠蔽している。
本稿では,ビデオ拡散変換器(DiT)の全深度にわたってネットワークを曲げる作業を拡張するツールであるReal-Time AttentionBenderを紹介する。
DayDream Scopeエコシステム内のプラグインとして構築され、オープンソースのリアルタイムWanパイプラインをラップする。このツールは、個別の拡散ステップ、DiT層、トークンのプロンプト、隠れたニューロンをターゲットとして、セルフアテンション、クロスアテンション、フィードフォワードネットワークを独立して操作可能な表面として公開する。
ライブ操作の即時性は、私たちがモデルで"マテリアル・親密性"と呼ぶもの、すなわち、特定のレイヤやニューロンがどのように生成されたビデオを生成するかの応答性、ほぼ機械的な感覚を与えます。
我々は、XAIxArtsプローブをトランスフォーマー内部に同時に配置し、モデルのデフォルト表現空間の外で美学を発見するための表現器を配置する。
関連論文リスト
- AttentionBender: Manipulating Cross-Attention in Video Diffusion Transformers as a Creative Probe [0.03437656066916039]
AttentionBenderは、ビデオ拡散変換器のクロスアテンションを操作するツールである。
AttentionBenderはプロンプト、操作、レイヤーターゲット間で4,500以上のビデオ世代を可視化することで評価する。
論文 参考訳(メタデータ) (2026-04-22T13:11:21Z) - FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation [49.74776147964999]
マルチビュー拡散モデルにおける外観伝達のための軽量適応手法を提案する。
提案手法では,入力画像からオブジェクトの同一性と,参照画像に描画された外見の手がかりとを組み合わせ,マルチビュー一貫性のある出力を生成する。
論文 参考訳(メタデータ) (2025-12-10T13:06:40Z) - SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - Yan: Foundational Interactive Video Generation [25.398980906541524]
Yanはインタラクティブなビデオ生成の基盤となるフレームワークで、シミュレーションや生成から編集まで、パイプライン全体をカバーしている。
高圧縮低遅延3D-VAE と KV-cache-based shift-window denoising inference を併用して設計する。
本稿では,インタラクティブなメカニクスシミュレーションを視覚的レンダリングから明確に切り離すハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2025-08-12T03:34:21Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。