論文の概要: Event-Customized Image Generation
- arxiv url: http://arxiv.org/abs/2410.02483v1
- Date: Thu, 3 Oct 2024 13:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:01:18.864797
- Title: Event-Customized Image Generation
- Title(参考訳): イベントカスタマイズ画像生成
- Authors: Zhen Wang, Yilei Jiang, Dong Zheng, Jun Xiao, Long Chen,
- Abstract要約: 本稿では,イベントカスタマイズ画像生成という新しい課題を提案する。
単一の参照イメージが与えられた場合、シーン内の異なるエンティティ間のすべてのアクション、ポーズ、関係、インタラクションとして'event'を定義します。
このタスクは、複雑なイベントを正確にキャプチャし、さまざまなターゲットエンティティでカスタマイズされたイメージを生成することを目的としている。
- 参考スコア(独自算出の注目度): 15.051285368115762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized Image Generation, generating customized images with user-specified concepts, has raised significant attention due to its creativity and novelty. With impressive progress achieved in subject customization, some pioneer works further explored the customization of action and interaction beyond entity (i.e., human, animal, and object) appearance. However, these approaches only focus on basic actions and interactions between two entities, and their effects are limited by insufficient ''exactly same'' reference images. To extend customized image generation to more complex scenes for general real-world applications, we propose a new task: event-customized image generation. Given a single reference image, we define the ''event'' as all specific actions, poses, relations, or interactions between different entities in the scene. This task aims at accurately capturing the complex event and generating customized images with various target entities. To solve this task, we proposed a novel training-free event customization method: FreeEvent. Specifically, FreeEvent introduces two extra paths alongside the general diffusion denoising process: 1) Entity switching path: it applies cross-attention guidance and regulation for target entity generation. 2) Event transferring path: it injects the spatial feature and self-attention maps from the reference image to the target image for event generation. To further facilitate this new task, we collected two evaluation benchmarks: SWiG-Event and Real-Event. Extensive experiments and ablations have demonstrated the effectiveness of FreeEvent.
- Abstract(参考訳): ユーザが指定したコンセプトでカスタマイズされたイメージを生成するカスタマイズイメージ生成は、その創造性と斬新さから、大きな注目を集めている。
主題のカスタマイズにおいて顕著な進歩が達成され、いくつかの先駆的な研究は、実体(人間、動物、物体)の外観を超えた行動と相互作用のカスタマイズをさらに探求した。
しかし、これらの手法は2つの実体間の基本的な動作と相互作用にのみ焦点を当てており、それらの効果は不十分な「正確には同じ」参照画像によって制限される。
より複雑なシーンにカスタマイズされた画像生成を拡張すべく,イベントカスタマイズ画像生成という新たな課題を提案する。
単一の参照イメージが与えられた場合、シーン内の異なるエンティティ間のすべてのアクション、ポーズ、関係、インタラクションとして'event'を定義します。
このタスクは、複雑なイベントを正確にキャプチャし、さまざまなターゲットエンティティでカスタマイズされたイメージを生成することを目的としている。
そこで我々は,この課題を解決するために,新しいトレーニング不要イベントカスタマイズ手法,FreeEventを提案した。
具体的には、FreeEventは2つの余分なパスを、一般的な拡散分極プロセスと一緒に導入する。
1) エンティティスイッチングパス: 対象エンティティの生成に対して、クロスアテンションガイダンスと規制を適用する。
2)イベント転送経路:参照画像から対象画像に空間的特徴と自己認識マップを注入してイベント生成を行う。
この新しいタスクをさらに促進するため、我々はSWiG-EventとReal-Eventの2つの評価ベンチマークを収集した。
大規模な実験と改善により、FreeEventの有効性が実証された。
関連論文リスト
- SpotActor: Training-Free Layout-Controlled Consistent Image Generation [43.2870588035256]
双対セマンティックラテント空間における最適化による二元エネルギー誘導の新しい形式化を提案する。
本研究では,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニングフリーパイプラインSpotActorを提案する。
その結果、SpotActorはこのタスクの期待を達成し、実用的な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-09-07T11:52:48Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition [9.573188010530217]
我々は、ラベル付きソース画像データにアクセスすることなく、イベントベースのオブジェクト認識のためのクロスモーダル(画像からイベントへの)適応を実現するための最初の試みを行う。
我々は、この教師なしソースフリーのクロスモーダル適応問題に対して、EventDanceと呼ばれる新しいフレームワークを提案する。
2つの設定を持つ3つのベンチマークデータセットの実験は、EventDanceがソースデータを利用する以前のメソッドと同等であることを示している。
論文 参考訳(メタデータ) (2024-03-21T02:19:54Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。