論文の概要: Explainability-in-Action: Enabling Expressive Manipulation and Tacit Understanding by Bending Diffusion Models in ComfyUI
- arxiv url: http://arxiv.org/abs/2508.07183v1
- Date: Sun, 10 Aug 2025 05:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.741648
- Title: Explainability-in-Action: Enabling Expressive Manipulation and Tacit Understanding by Bending Diffusion Models in ComfyUI
- Title(参考訳): 説明可能性-in-Action:ComfyUIにおける曲げ拡散モデルによる表現操作と暗黙理解の促進
- Authors: Ahmed M. Abuzuraiq, Philippe Pasquier,
- Abstract要約: 我々は、Sch"onの「反省的行動(reflection-in-action)」と似た、長期的、ハンズオンなエンゲージメントに根ざした説明可能性へのクラフトベースのアプローチを提案する。
生成モデルの異なる部分をインタラクティブに操作することで、アーティストは各コンポーネントが出力にどのように影響するかについての直感を発達させることができることを実証する。
- 参考スコア(独自算出の注目度): 6.349140286855134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable AI (XAI) in creative contexts can go beyond transparency to support artistic engagement, modifiability, and sustained practice. While curated datasets and training human-scale models can offer artists greater agency and control, large-scale generative models like text-to-image diffusion systems often obscure these possibilities. We suggest that even large models can be treated as creative materials if their internal structure is exposed and manipulable. We propose a craft-based approach to explainability rooted in long-term, hands-on engagement akin to Sch\"on's "reflection-in-action" and demonstrate its application through a model-bending and inspection plugin integrated into the node-based interface of ComfyUI. We demonstrate that by interactively manipulating different parts of a generative model, artists can develop an intuition about how each component influences the output.
- Abstract(参考訳): 創造的なコンテキストにおける説明可能なAI(XAI)は、透明性を超えて、芸術的エンゲージメント、モディフィビリティ、持続的なプラクティスをサポートすることができる。
キュレートされたデータセットと人間のスケールモデルのトレーニングは、アーティストにより大きなエージェンシーとコントロールを提供するが、テキストから画像への拡散システムのような大規模な生成モデルは、これらの可能性を隠蔽することが多い。
内部構造が露出し、操作可能であれば、大きなモデルであっても創造的な素材として扱うことができることを示唆する。
本稿では,Sch\ on の "reflection-in-action" に類似した長期的手動エンゲージメントに根ざした説明可能性へのクラフトベースのアプローチを提案し,ComfyUI のノードベースインターフェースに統合されたモデル曲げ検査プラグインを通じてその応用を実証する。
生成モデルの異なる部分をインタラクティブに操作することで、アーティストは各コンポーネントが出力にどのように影響するかについての直感を発達させることができることを実証する。
関連論文リスト
- Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - ArtCrafter: Text-Image Aligning Style Transfer via Embedding Reframing [25.610375901522886]
ArtCrafterは、テキストから画像へのスタイル転送のための新しいフレームワークである。
注意に基づくスタイル抽出モジュールを導入する。
また,新たなテキスト画像アライメント拡張コンポーネントを提案する。
論文 参考訳(メタデータ) (2025-01-03T19:17:27Z) - VisioBlend: Sketch and Stroke-Guided Denoising Diffusion Probabilistic Model for Realistic Image Generation [0.0]
拡散モデルに基づくスケッチやストロークからの画像合成の3次元制御を支援する統一フレームワークを提案する。
入力ストロークやスケッチに対する忠実度を決定することができる。
これは手書きのスケッチやストロークから新しいデータポイントを合成することで、データ可用性の問題を解決する。
論文 参考訳(メタデータ) (2024-05-15T11:27:27Z) - Interaction as Explanation: A User Interaction-based Method for Explaining Image Classification Models [1.3597551064547502]
コンピュータビジョンでは、説明可能なAI(xAI)手法は「ブラックボックス」問題を緩和しようとする。
従来のxAI手法は、モデル予測に影響を与える入力特徴の可視化に重点を置いている。
本稿では,画像分類モデルのユーザ理解を深めるインタラクションベースのxAI手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T14:26:00Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion [73.08710648258985]
レイアウト、視点、形状、意味といった重要な絵の属性は、しばしばスタイル転送によって伝達され、表現されない。
大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。
我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。