論文の概要: AttentionBender: Manipulating Cross-Attention in Video Diffusion Transformers as a Creative Probe
- arxiv url: http://arxiv.org/abs/2604.20936v1
- Date: Wed, 22 Apr 2026 13:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.106083
- Title: AttentionBender: Manipulating Cross-Attention in Video Diffusion Transformers as a Creative Probe
- Title(参考訳): AttentionBender:ビデオ拡散変換器のクロスアテンションを創造的プローブとして操作する
- Authors: Adam Cole, Mick Grierson,
- Abstract要約: AttentionBenderは、ビデオ拡散変換器のクロスアテンションを操作するツールである。
AttentionBenderはプロンプト、操作、レイヤーターゲット間で4,500以上のビデオ世代を可視化することで評価する。
- 参考スコア(独自算出の注目度): 0.03437656066916039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AttentionBender, a tool that manipulates cross-attention in Video Diffusion Transformers to help artists probe the internal mechanics of black-box video generation. While generative outputs are increasingly realistic, prompt-only control limits artists' ability to build intuition for the model's material process or to work beyond its default tendencies. Using an autobiographical research-through-design approach, we built on Network Bending to design AttentionBender, which applies 2D transforms (rotation, scaling, translation, etc.) to cross-attention maps to modulate generation. We assess AttentionBender by visualizing 4,500+ video generations across prompts, operations, and layer targets. Our results suggest that cross-attention is highly entangled: targeted manipulations often resist clean, localized control, producing distributed distortions and glitch aesthetics over linear edits. AttentionBender contributes a tool that functions both as an Explainable AI style probe of transformer attention mechanisms, and as a creative technique for producing novel aesthetics beyond the model's learned representational space.
- Abstract(参考訳): 我々は、ビデオ拡散変換器のクロスアテンションを操作するツールであるAttentionBenderを紹介し、アーティストがブラックボックスビデオ生成の内部メカニズムを調査するのを助ける。
生成的なアウトプットはますます現実的になるが、プロンプトのみの制御は、モデルの物質的プロセスに対する直観や、デフォルトの傾向を超えて機能するアーティストの能力を制限している。
AttentionBenderは2次元変換(回転、スケーリング、翻訳など)を大陸横断地図に適用し、生成を変調する。
AttentionBenderはプロンプト、操作、レイヤーターゲット間で4,500以上のビデオ世代を可視化することで評価する。
対象の操作は、しばしばクリーンで局所的な制御に抵抗し、線形編集よりも分散歪みやグリッチ美学を生じさせる。
AttentionBenderは、トランスフォーマーアテンションメカニズムの説明可能なAIスタイルプローブとして機能するツールと、モデルが学習した表現空間を超えて、新しい美学を作り出すための創造的なテクニックとして機能する。
関連論文リスト
- MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues [106.02577891104079]
本稿では,生成画像編集のための合成パラダイムであるMagicQuill V2を提案する。
本手法は,創造性を制御可能な視覚的手がかりのスタックに分解する。
論文 参考訳(メタデータ) (2025-12-02T18:59:58Z) - Attention of a Kiss: Exploring Attention Maps in Video Diffusion for XAIxArts [0.03437656066916039]
本研究は, 生成ビデオモデルにおいて, クロスアテンションマップを抽出し, 可視化する手法を提案する。
本ツールは,テキスト・ビデオ生成における注意の時間的・空間的挙動を解釈可能なウィンドウとして提供する。
論文 参考訳(メタデータ) (2025-08-30T19:46:18Z) - Generative AI for Cel-Animation: A Survey [59.20171452237911]
GenAIは、技術的な障壁を減らし、幅広いクリエイターへのアクセシビリティを広げることで、伝統的なアニメーションに革命をもたらしている。
その可能性にもかかわらず、一貫性、スタイリスティックなコヒーレンス、倫理的考察といった課題が続いている。
本稿では,AI支援アニメーションの今後の方向性について考察する。
論文 参考訳(メタデータ) (2025-01-08T20:57:39Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - Vision Transformers Need Registers [26.63912173005165]
教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。
このソリューションは、教師付きモデルと自己教師型モデルの両方で完全にその問題を解決する。
論文 参考訳(メタデータ) (2023-09-28T16:45:46Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。