論文の概要: Composing Concepts from Images and Videos via Concept-prompt Binding
- arxiv url: http://arxiv.org/abs/2512.09824v1
- Date: Wed, 10 Dec 2025 16:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.601857
- Title: Composing Concepts from Images and Videos via Concept-prompt Binding
- Title(参考訳): コンセプト・プロンプト・バインディングによる画像・映像からのコンセプト作成
- Authors: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao,
- Abstract要約: Bind & Composeはフレキシブルなビジュアルコンセプトコンポジションを可能にするワンショット方式である。
複雑な視覚概念を正確に分解するために、視覚概念を対応するプロンプトトークンにエンコードする。
既存のアプローチよりも優れた概念整合性、迅速な忠実性、動作品質を実現している。
- 参考スコア(独自算出の注目度): 21.812907749721973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.
- Abstract(参考訳): 画像とビデオの異なる要素を単一のコヒーレントな視覚出力に統合することを目的としたビジュアルコンセプトコンポジションは、視覚入力から複雑な概念を正確に抽出し、画像とビデオの両方の概念を柔軟に組み合わせることにおいて、依然として不足している。
我々は,視覚概念を対応するプロンプトトークンに結合し,ターゲットプロンプトを様々なソースから有界トークンで構成することで,フレキシブルな視覚概念合成を可能にするワンショット手法であるBind & Composeを紹介する。
拡散変換器のクロスアテンション条件付けに階層的なバインダー構造を採用し、複雑な視覚概念を正確に分解するために、視覚概念を対応するプロンプトトークンにエンコードする。
そこで本研究では,多角化プロンプトを用いたトレーニングにおいて,概念非関連の詳細の影響を除去するために,余分な吸収トークンを用いたDiversify-and-Absorb機構を設計する。
映像概念と映像概念の整合性を高めるため,映像概念のトレーニングプロセスを2段階に分離し,時間的モデリングのためのデュアルブランチバインダー構造を組み込んだテンポラルディスタングルメント戦略を提案する。
提案手法は,既存の手法よりも優れた概念整合性,即効性,運動品質を達成し,視覚的創造性に新たな可能性を開くことを実証した。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Automatic Concept Extraction for Concept Bottleneck-based Video
Classification [58.11884357803544]
本稿では,概念に基づくビデオ分類に必要かつ十分な概念抽象セットを厳格に構成する概念発見抽出モジュールを提案する。
提案手法は,自然言語における概念概念の抽象概念を応用し,複雑なタスクに概念ボトルネック法を一般化する。
論文 参考訳(メタデータ) (2022-06-21T06:22:35Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。